5차 전처리 과정

전처리 과정 명세

이때까지의 과정과 대표적인 차이점은 다음과 같다.

  1. 모든 항공 데이터는 출발/도착 데이터가 1대1로 매칭되어 있다. 즉, ARP와 ODP 데이터는 단일로 존재하는 의미보다 어떤 공항에서 출발하여 어떤 공항에 도착했다는 정보 자체가 의미를 가질 것이라 생각하여 2개의 데이터를 매핑시켰다.

  2. 또한 매핑된 출발/도착 공항 데이터를 바탕으로 각 경로에 대하여, 평균 지연 확률이 10%를 넘지 않을 경우, 해당 데이터를 칼럼에서 제외시켰다.

실행 코드

# ARP ODP 매핑
	sz = 15
	for i in range(1, sz+1):
	    df['ARP'].loc[df['ARP'] == ('ARP'+str(i))] = i
	    df['ODP'].loc[df['ODP'] == ('ARP'+str(i))] = i

	df['ARP_ODP'] = df['ARP'].astype(str) + df['ODP'].astype(str)
	df['ARP__ODP'] = df['ARP_ODP']
	arp = (df[['ARP_ODP', 'DLY']].groupby('ARP_ODP').sum())/(df[['ARP_ODP', 'DLY']].groupby('ARP_ODP').count())
	arp = arp[arp['DLY']>0.1]
	arp = arp.index

Last updated