데이터 단순 빈도수 분석

각 칼럼별 데이터들의 단순 빈도수를 정리한다.

분석 과정

data = pd.read_csv('AFSNT.csv', engine='python')
data.fillna("NaN").groupby(COL).size().sort_values(ascending=False)
  1. NaN 데이터 문자열 처리 (NaN의 빈도수도 확인하기 위함)

  2. 칼럼별 데이터로 그룹화하여 각 그룹의 사이즈 측정 및 정렬

각 칼럼 빈도수 분석

연도별 빈도수(SDT_YY): 총 3개

각 연도별 빈도수는 다음과 같다. 2019는 이제 하반기에 접어들었기 때문에 타 연도의 약 절반 정도의 데이터를 가지고 있음을 확인할 수 있다. 그외에 특이사항은 보이지 않는 듯 하다.

데이터

빈도수

2017

397512

2018

395925

2019

194272

월별 빈도수(SDT_MM): 총 12

단순하게 생각하면 8,7,9,10,11,12 월의 빈도수가 나머지 월에 비해 적은 것에 의문을 품을 수 있지만, 이것은 2019년의 하반기 데이터가 존재하지 않기 때문인 점을 고려했을 때 크게 이상한 점을 찾을 수 없다.

데이터

빈도수

5

103473

6

100182

4

98868

3

98396

1

96848

2

88259

8

68671

7

68481

10

68471

9

67244

12

65110

11

63706

일별 빈도수(SDT_DD): 총 31개

다른 일에 비해 적게 등장하는 31일을 제외하고는 모두 비슷한 수준의 빈도수를 가지고 있다. 크게 신경쓰이는 점은 찾을 수 없었다.

데이터

빈도수

26

32737

5

32713

24

32641

27

32629

(중략)...

(중략)...

31

18368

요일별 빈도수(SDT_DY): 총 7개

마찬가지로, 모든 데이터의 빈도수가 비슷했기 때문에 신경쓰이는 점은 찾을 수 없었다.

데이터

빈도수

143873

142842

141466

141237

(생략)...

(생략)...

공항/상대공항별 빈도수(ARP/ODP): 총 15개

각 공항별 운항 횟수의 범위가 매우 다양함을 확인할 수 있다. 학습 중, 특정 공항에 대한 지연율을 계산할 때 너무 적은 데이터에 기반한 잘못된 결과가 나올 수 있기 때문에 어느정도의 전처리 여지가 존재한다.

데이터

ARP 빈도수

ODP 빈도수

ARP3

393607

393429

ARP1

310665

308825

ARP2

121513

121030

ARP6

34472

34427

ARP4

33623

33515

ARP8

33195

33191

ARP5

16321

16383

ARP15

13696

16318

ARP9

12759

12761

ARP12

4880

4877

ARP13

4248

4248

ARP11

3658

3653

ARP7

3163

3149

ARP14

1897

1896

ARP10

12

7

항공사별 빈도수(FLO): 총 12개

하위 C, K, D, G, E의 항공사의 경우, 운항 회수 자체가 너무 적어서 학습에 악영향을 끼칠 수 있다. 위와 마찬가지로 전처리 과정에서 걸러내줄 필요가 있다.

데이

빈도수

J

276447

A

177187

B

135235

H

131935

I

95074

F

88110

L

83712

C

3

K

2

D

2

G

1

E

1

편명별 빈도수(FLO): 총 1541개

몇몇의 편명이 운항 회수 자체가 너무 적어서 학습에 악영향을 끼칠 수 있다. 위와 마찬가지로 전처리 과정에서 걸러내줄 필요가 있다.

데이터

빈도수

L1804

1832

L1808

1828

L1805

1828

L1807

1828

(중략)...

(중략)...

F1268F

1

L1130

1

F1265F

1

A1815A

1

(중략)...

(중략)...

등록기호별 빈도수(REG): 총 365개

등록기호는 항공기의 고유번호를 뜻한다. 빈도수 범주 자체도 크지만, 실제 지연에 상당히 영향을 끼치는 부분일 거라 예상되기 때문에 주의깊게 다룰 필요가 있다.

데이터

빈도수

SEw3NTk0

15281

SEw3NzAz

15194

SEw4MjM2

14489

(중략)...

(중략)...

SEw4MDY1

8022

SEw4MDU1

7755

SEw4MDY2

7607

(중략)...

(중략)...

SEw4MjU1

1

SEw3NjEy

1

SEw4MjEy

1

(중략)...

(중략)...

출도착별 빈도수(AOD): 총 2개

데이터

빈도

A

493992

D

493717

부정기편 빈도수(IRR): 총 2개

데이터

빈도수

N

966084

Y

21625

계획시각별 빈도수(STT): 총 372개

항공 교통수단의 특성상, 계획시각 변수의 종류가 많은 것 자체는 크게 부자연스럽지는 않다. 그러나 신경쓰이는 부분은 빈도수가 높은 대부분의 계획시각은 분단위가 5의 배수인 반면에 빈도수가 극도로 작은 계획시각은 5의 배수가 아니라는 것이다. 즉, 흔치 않는 상황이 발생하여 시간을 조정한 것이라고 추측해볼 수 있다.

빈도수

8:00

10662

15:00

9438

19:00

9082

10:00

8778

(중략)...

(중략)...

14:33

1

14:12

1

21:34

1

16:09

1

(중략)...

(중략)...

실제시각별 빈도수(ATT): 총 1159개

대부분의 시간대에서 비슷한 빈도수를 보여주지만 심야 및 새벽시간에 가까워질수록 빈도수가 극도로 줄어드는 것을 확인할 수 있다.

데이

빈도수

NaN

8248

9:20

1380

9:18

1311

9:17

1305

(중략)...

(중략)...

5:29

1

23:53

1

1:02

1

0:59

1

1:48

1

(중략)...

(중략)...

지연여부 빈도수(DLY): 총 2개

데이터

빈도수

N

868772

Y

118937

지연사유별 빈도수(DRR): 총 38개

각 지연사유에 대한 빈도 차이가 큰 폭으로 나고 있으며, 그 중에서 A/C 정비(C02)의 사유가 지연 사유 중 압도적인 빈도수를 보여주었다.

데이터

빈도수

NaN

867792

C02

108578

C01

2042

A01

1543

C10

1237

D01

957

C03

913

C14

879

Z99

669

A05

608

B01

418

(생략)...

(생략)...

etc

결항 여부 및 사유의 경우, 본 프로젝트에서는 예측하지 않기 때문에 제외하였다.

Last updated

Was this helpful?