반응형
순서
1. 데이터 파악
2. 결측치 파악
3. 결측지가 50% 이상이면 columns 삭제
4. 중앙값, 최빈값, 평균값 등으로 결측값 채우기
5. 더미데이터 분류(명목형 데이터)
6. X_train, Y_train, X_test 데이터 세트 생성
6. 각종 알고리즘 적용 후 수치 파악
- 결측치 한눈에 보도록 구현한 함수
for col in train_df.columns:
print('{:>11}:\t percent of NA-data {:.2f}%'.format(col, 100*train_df[col].isnull().sum()/train_df[col].shape[0]
- .info() => 데이터 타입, 결측치, 이름 등을 전반적으로 파악할 수 있어서 용이함, train, test df의 info를 한 블럭에 모두 출력 가능
- inplace = True => 그 자체의 데이터셋에서 바로 적용되도록 함. ( .join 메소드는 사용 불가 )
- .drop, pd.get_dummies, .join, .fillna, value_counts 등 숙지
-
반응형
'AI' 카테고리의 다른 글
| [머신러닝 알고리즘] KNN, k-최근접 이웃 알고리즘에 대해서 (0) | 2025.01.21 |
|---|---|
| [머신러닝 알고리즘] Linear Regression, 선형 회귀에 대해서 (0) | 2025.01.21 |
| [머신러닝 알고리즘] Random Forest, 렌덤 포레스트에 대해서 (0) | 2025.01.21 |
| [머신러닝 알고리즘] SVM, support vecotr macine에 대해서 (0) | 2025.01.21 |
| [데이터 분류] 범주형 데이터, 수치형 데이터 (0) | 2025.01.21 |