6차 전처리 과정

전처리 과정 명세

이때까지의 과정과 대표적인 차이점은 다음과 같다.

  1. REG 칼럼을 학습 데이터에서 제외하였다.

  2. ARP, ODP 데이터를 합하여 ARP_ODP라는 새로운 칼럼을 생성하였다.

  3. 항공 기록의 시간 및 항공편을 조합하여 SAME_DAY 칼럼을 생성하였다.

실행 코드

# df['ARP_ODP'] = df['ARP'].astype(str) + df['ODP'].astype(str)
arp = (df[['ARP_ODP', 'DLY']].groupby('ARP_ODP').sum())/(df[['ARP_ODP', 'DLY']].groupby('ARP_ODP').count())
arp = arp[arp['DLY']>0.1]
arp = arp.index

# #arp.index
for i in arp:
    df['ARP_ODP'].loc[df['ARP_ODP']==i] = 1
df['ARP_ODP'].loc[df['ARP_ODP']!=1] = 0

# REG를 다른 방식으로

df['SAME_DAY'] = (df['SDT_YY']*10000 + df['SDT_MM']*100 + df['SDT_DD']).astype(str) + df['FLO']

df = df.drop(['ARP', 'ODP'], axis = 1)

전처리 결과

Last updated