본문 바로가기
AI

[캐글] 타이타닉 튜토리얼_1

by mindun 2025. 1. 14.
반응형

순서

 

1. 데이터 파악

2. 결측치 파악

3. 결측지가 50% 이상이면 columns 삭제

4. 중앙값, 최빈값, 평균값 등으로 결측값 채우기

5. 더미데이터 분류(명목형 데이터)

6. X_train, Y_train, X_test 데이터 세트 생성

6. 각종 알고리즘 적용 후 수치 파악

 

- 결측치 한눈에 보도록 구현한 함수

for col in train_df.columns:
	print('{:>11}:\t percent of NA-data {:.2f}%'.format(col, 100*train_df[col].isnull().sum()/train_df[col].shape[0]

 

- .info() => 데이터 타입, 결측치, 이름 등을 전반적으로 파악할 수 있어서 용이함, train, test df의 info를 한 블럭에 모두 출력 가능

 

- inplace = True => 그 자체의 데이터셋에서 바로 적용되도록 함. ( .join 메소드는 사용 불가 )

 

- .drop, pd.get_dummies, .join, .fillna, value_counts 등 숙지

 

반응형