4차 모델 테스트

사용된 모델 및 데이터 셋

학습에 사용된 데이터는 5차 전처리 과정에서 도출된 데이터를 사용하였다.

5차 전처리 과정

2차 테스트와 동일하게 랜덤 포레스트 알고리즘을 사용하였으나, 조금씩 하이퍼 파라미터를 조정하여 그 중, 비교적 준수한 결과를 가진 모델을 바탕으로 테스트를 수행하였다.

random_forest = RandomForestClassifier(
                               n_estimators=est, 
                               min_samples_leaf=3)

실행 결과

RandomForestClassifier(bootstrap=True, class_weight=None, criterion='gini',
                       max_depth=None, max_features='auto', max_leaf_nodes=None,
                       min_impurity_decrease=0.0, min_impurity_split=None,
                       min_samples_leaf=3, min_samples_split=2,
                       min_weight_fraction_leaf=0.0, n_estimators=1000,
                       n_jobs=None, oob_score=False, random_state=None,
                       verbose=0, warm_start=False)
              precision    recall  f1-score   support

           0       0.89      0.99      0.94    168696
           1       0.76      0.14      0.24     22929

    accuracy                           0.89    191625
   macro avg       0.83      0.57      0.59    191625
weighted avg       0.88      0.89      0.86    191625

[[0.99657242 0.00342758]
 [0.98804973 0.01195027]
 [0.82319071 0.17680929]
 ...
 [0.89003735 0.10996265]
 [0.98619635 0.01380365]
 [0.90677269 0.09322731]]
0.8551394409036555

결과 해석 및 회고

3차 모델 테스트에 비해, 전반적인 모든 성능이 향상되었다. 단 아직까지도 recall 수치에서 개선의 여지가 보인다.

Last updated