데이터 단순 빈도수 분석
각 칼럼별 데이터들의 단순 빈도수를 정리한다.
Last updated
각 칼럼별 데이터들의 단순 빈도수를 정리한다.
Last updated
NaN 데이터 문자열 처리 (NaN의 빈도수도 확인하기 위함)
칼럼별 데이터로 그룹화하여 각 그룹의 사이즈 측정 및 정렬
각 연도별 빈도수는 다음과 같다. 2019는 이제 하반기에 접어들었기 때문에 타 연도의 약 절반 정도의 데이터를 가지고 있음을 확인할 수 있다. 그외에 특이사항은 보이지 않는 듯 하다.
단순하게 생각하면 8,7,9,10,11,12 월의 빈도수가 나머지 월에 비해 적은 것에 의문을 품을 수 있지만, 이것은 2019년의 하반기 데이터가 존재하지 않기 때문인 점을 고려했을 때 크게 이상한 점을 찾을 수 없다.
다른 일에 비해 적게 등장하는 31일을 제외하고는 모두 비슷한 수준의 빈도수를 가지고 있다. 크게 신경쓰이는 점은 찾을 수 없었다.
마찬가지로, 모든 데이터의 빈도수가 비슷했기 때문에 신경쓰이는 점은 찾을 수 없었다.
각 공항별 운항 횟수의 범위가 매우 다양함을 확인할 수 있다. 학습 중, 특정 공항에 대한 지연율을 계산할 때 너무 적은 데이터에 기반한 잘못된 결과가 나올 수 있기 때문에 어느정도의 전처리 여지가 존재한다.
하위 C, K, D, G, E의 항공사의 경우, 운항 회수 자체가 너무 적어서 학습에 악영향을 끼칠 수 있다. 위와 마찬가지로 전처리 과정에서 걸러내줄 필요가 있다.
몇몇의 편명이 운항 회수 자체가 너무 적어서 학습에 악영향을 끼칠 수 있다. 위와 마찬가지로 전처리 과정에서 걸러내줄 필요가 있다.
등록기호는 항공기의 고유번호를 뜻한다. 빈도수 범주 자체도 크지만, 실제 지연에 상당히 영향을 끼치는 부분일 거라 예상되기 때문에 주의깊게 다룰 필요가 있다.
항공 교통수단의 특성상, 계획시각 변수의 종류가 많은 것 자체는 크게 부자연스럽지는 않다. 그러나 신경쓰이는 부분은 빈도수가 높은 대부분의 계획시각은 분단위가 5의 배수인 반면에 빈도수가 극도로 작은 계획시각은 5의 배수가 아니라는 것이다. 즉, 흔치 않는 상황이 발생하여 시간을 조정한 것이라고 추측해볼 수 있다.
대부분의 시간대에서 비슷한 빈도수를 보여주지만 심야 및 새벽시간에 가까워질수록 빈도수가 극도로 줄어드는 것을 확인할 수 있다.
각 지연사유에 대한 빈도 차이가 큰 폭으로 나고 있으며, 그 중에서 A/C 정비(C02)의 사유가 지연 사유 중 압도적인 빈도수를 보여주었다.
결항 여부 및 사유의 경우, 본 프로젝트에서는 예측하지 않기 때문에 제외하였다.
데이터
빈도수
2017
397512
2018
395925
2019
194272
데이터
빈도수
5
103473
6
100182
4
98868
3
98396
1
96848
2
88259
8
68671
7
68481
10
68471
9
67244
12
65110
11
63706
데이터
빈도수
26
32737
5
32713
24
32641
27
32629
(중략)...
(중략)...
31
18368
데이터
빈도수
일
143873
금
142842
월
141466
토
141237
(생략)...
(생략)...
데이터
ARP 빈도수
ODP 빈도수
ARP3
393607
393429
ARP1
310665
308825
ARP2
121513
121030
ARP6
34472
34427
ARP4
33623
33515
ARP8
33195
33191
ARP5
16321
16383
ARP15
13696
16318
ARP9
12759
12761
ARP12
4880
4877
ARP13
4248
4248
ARP11
3658
3653
ARP7
3163
3149
ARP14
1897
1896
ARP10
12
7
데이
빈도수
J
276447
A
177187
B
135235
H
131935
I
95074
F
88110
L
83712
C
3
K
2
D
2
G
1
E
1
데이터
빈도수
L1804
1832
L1808
1828
L1805
1828
L1807
1828
(중략)...
(중략)...
F1268F
1
L1130
1
F1265F
1
A1815A
1
(중략)...
(중략)...
데이터
빈도수
SEw3NTk0
15281
SEw3NzAz
15194
SEw4MjM2
14489
(중략)...
(중략)...
SEw4MDY1
8022
SEw4MDU1
7755
SEw4MDY2
7607
(중략)...
(중략)...
SEw4MjU1
1
SEw3NjEy
1
SEw4MjEy
1
(중략)...
(중략)...
데이터
빈도
A
493992
D
493717
데이터
빈도수
N
966084
Y
21625
데
빈도수
8:00
10662
15:00
9438
19:00
9082
10:00
8778
(중략)...
(중략)...
14:33
1
14:12
1
21:34
1
16:09
1
(중략)...
(중략)...
데이
빈도수
NaN
8248
9:20
1380
9:18
1311
9:17
1305
(중략)...
(중략)...
5:29
1
23:53
1
1:02
1
0:59
1
1:48
1
(중략)...
(중략)...
데이터
빈도수
N
868772
Y
118937
데이터
빈도수
NaN
867792
C02
108578
C01
2042
A01
1543
C10
1237
D01
957
C03
913
C14
879
Z99
669
A05
608
B01
418
(생략)...
(생략)...