학습에 사용된 데이터는 5차 전처리 과정에서 도출된 데이터를 사용하였다.
2차 테스트와 동일하게 랜덤 포레스트 알고리즘을 사용하였으나, 조금씩 하이퍼 파라미터를 조정하여 그 중, 비교적 준수한 결과를 가진 모델을 바탕으로 테스트를 수행하였다.
random_forest = RandomForestClassifier(
n_estimators=est,
min_samples_leaf=3)
RandomForestClassifier(bootstrap=True, class_weight=None, criterion='gini',
max_depth=None, max_features='auto', max_leaf_nodes=None,
min_impurity_decrease=0.0, min_impurity_split=None,
min_samples_leaf=3, min_samples_split=2,
min_weight_fraction_leaf=0.0, n_estimators=1000,
n_jobs=None, oob_score=False, random_state=None,
verbose=0, warm_start=False)
precision recall f1-score support
0 0.89 0.99 0.94 168696
1 0.76 0.14 0.24 22929
accuracy 0.89 191625
macro avg 0.83 0.57 0.59 191625
weighted avg 0.88 0.89 0.86 191625
[[0.99657242 0.00342758]
[0.98804973 0.01195027]
[0.82319071 0.17680929]
...
[0.89003735 0.10996265]
[0.98619635 0.01380365]
[0.90677269 0.09322731]]
0.8551394409036555
3차 모델 테스트에 비해, 전반적인 모든 성능이 향상되었다. 단 아직까지도 recall 수치에서 개선의 여지가 보인다.