학습에 사용된 데이터는 1차 전처리 과정에서 도출된 데이터에 운항 횟수 자체가 너무 적고 지연율이 극단적으로 낮은 FLT(항공사)를 그룹화하는 부분을 추가적으로 처리하였다.
또한, REG(등록기호)도 마찬가지로 상위 11개를 제외한 나머지를 그룹화하여 성능에 어느정도 연관성이 있는지 테스트해보았다.
사용한 모델은 다음과 같다.
RandomForestClassifier
FLT 반영 실행 결과
REG 반영 실행 결과
결과 해석 및 회고
2차 테스트에 비해 전체적으로 낮은 결과를 보여주었지만, precision에 한해서는 상대적으로 높은 결과를 보여주었다. 그러나 아직까지는 FLT 및 REG가 지연율과 어떤 상관관계를 이루고 있는지 구체적을 도출해내기 힘든 부분이 있다.