[캐글] 타이타닉 튜토리얼

순서

1. 데이터 파악

2. 결측치 파악

3. 결측지가 50% 이상이면 columns 삭제

4. 중앙값, 최빈값, 평균값 등으로 결측값 채우기

5. 더미데이터 분류(명목형 데이터)

6. X_train, Y_train, X_test 데이터 세트 생성

6. 각종 알고리즘 적용 후 수치 파악

- 결측치 한눈에 보도록 구현한 함수

for col in train_df.columns:
	print('{:>11}:\t percent of NA-data {:.2f}%'.format(col, 100*train_df[col].isnull().sum()/train_df[col].shape[0]

- .info() => 데이터 타입, 결측치, 이름 등을 전반적으로 파악할 수 있어서 용이함, train, test df의 info를 한 블럭에 모두 출력 가능

- inplace = True => 그 자체의 데이터셋에서 바로 적용되도록 함. ( .join 메소드는 사용 불가 )

- .drop, pd.get_dummies, .join, .fillna, value_counts 등 숙지

[머신러닝 알고리즘] KNN, k-최근접 이웃 알고리즘에 대해서 (0)	2025.01.21
[머신러닝 알고리즘] Linear Regression, 선형 회귀에 대해서 (0)	2025.01.21
[머신러닝 알고리즘] Random Forest, 렌덤 포레스트에 대해서 (0)	2025.01.21
[머신러닝 알고리즘] SVM, support vecotr macine에 대해서 (0)	2025.01.21
[데이터 분류] 범주형 데이터, 수치형 데이터 (0)	2025.01.21

개발길로그