프로젝트 내용
전반적인 구조, 내용에 기반하여 해당 프로젝트에 대해 소개한다.
Last updated
전반적인 구조, 내용에 기반하여 해당 프로젝트에 대해 소개한다.
Last updated
본 공모전의 주제는 “항공 운항 데이터에 기반한 항공 지연 예측”이다. 구체적으로는 항공 시즌 스케줄, 운항데이터 등 항공운항데이터(한국공항공사)와 항공기상데이터 등을 활용하여 항공지연 예측 모형 개발한다. 해당 모델은 9월 16일부터 9월 30일까지의 항공편별 지연 여부 예측 결과값을 통해 평가한다.
본 프로젝트는 빅콘테스트로부터 항공 관련 데이터를 기본적으로 지급받는다. 단, 그 외의 정보 수집이 필요하다고 판단될 경우, 공공 데이터 포털을 이용하도록 한다.
중복되거나 학습에 좋지 않은 영향을 끼칠 만한 데이터를 처리해야 한다. 또한 초기 데이터를 머신러닝 모델의 입력에 적합한 형태로 바꿔주는 데이터 정제 과정 또한 이에 포함된다.
EDA는 프로젝트의성공 여부를 결정하는 매우 중요한 프로세스이다. 데이터를 이해하기 위해 데이터의특징을 찾고, 숨겨진 패턴을 발견하는 과정이 이에 해당한다.
예측값을 도출해내는 알고리즘 및 각 모델에 대한 hyperparameter를 선정한다. 모델에 사용될 feature의 경우, 공모전의 룰을 따른다.
수행 모델에 대한 성능을 평가하는 과정이다. 평가를 위한 test 데이터셋은 모델 선정 및 학습 과정에서 사용되지 않은 것들은 선정하여 평가를 수행한다.