# 6차 전처리 과정

## 전처리 과정 명세

이때까지의 과정과 대표적인 차이점은 다음과 같다.

1. REG 칼럼을 학습 데이터에서 제외하였다.
2. ARP, ODP 데이터를 합하여 ARP\_ODP라는 새로운 칼럼을 생성하였다.
3. 항공 기록의 시간 및 항공편을 조합하여 SAME\_DAY 칼럼을 생성하였다.

## 실행 코드

```coffeescript
# df['ARP_ODP'] = df['ARP'].astype(str) + df['ODP'].astype(str)
arp = (df[['ARP_ODP', 'DLY']].groupby('ARP_ODP').sum())/(df[['ARP_ODP', 'DLY']].groupby('ARP_ODP').count())
arp = arp[arp['DLY']>0.1]
arp = arp.index

# #arp.index
for i in arp:
    df['ARP_ODP'].loc[df['ARP_ODP']==i] = 1
df['ARP_ODP'].loc[df['ARP_ODP']!=1] = 0

# REG를 다른 방식으로

df['SAME_DAY'] = (df['SDT_YY']*10000 + df['SDT_MM']*100 + df['SDT_DD']).astype(str) + df['FLO']

df = df.drop(['ARP', 'ODP'], axis = 1)
```

## 전처리 결과

![](https://1865045824-files.gitbook.io/~/files/v0/b/gitbook-legacy-files/o/assets%2F-LkZEBcG92o0zS8GZFvw%2F-LmxswoLWwB1SvpNcZyJ%2F-Lmxt2NRdvBj5knlsPoU%2Fimage.png?alt=media\&token=e04f8d59-bba9-4439-bb4f-58c9f3677699)