3차 과정까지 거듭하는 동안, 각 칼럼에 존재하는 데이터 중, 출현 빈도 수가 높은 순으로 구분하여 일정 기준으로 그룹화를 한 후, 테스트를 진행해보았다. 특정 부분에서는 그룹화로 인해, 어느정도 정확도 향상을 기대할 수 있었으나 오히려 그룹화로 인해 정확도가 떨어지는 경우가 발생하게 되었다.
그리하여, 그룹화 및 정규화를 수행한 칼럼들 중, 성능에 긍정적인 영향을 끼치는 것들을 모아서 전처리를 수행해보았다.
이때까지의 과정과 대표적인 차이점은 다음과 같다.
ARP와 ODP의 경우 같은 공항 데이터를 사용하기 때문에 각각의 라벨링을 수행할 경우, 서로 다른 데이터가 각각의 칼럼에 삽입되게 되어 이를 수정하였다.
시간 데이터 그룹화를 각 시간대별 지연율을 고려하여 다음과 같이 그룹화하였다.
3. 계획시간 및 실제시간 사이의 차이시간을 계산한 뒤, -180분 이하의 데이터들을 제거하였다.