본문 바로가기
반응형

AI6

[머신러닝 알고리즘] KNN, k-최근접 이웃 알고리즘에 대해서 지도 학습 방법새로운 데이터 포인트를 예측할 때 가장 가까운 k개의 데이터 포인트를 참고거리 기반 분류 및 회귀 알고리즘1. KNN의 기본 개념KNN은 기존 데이터의 분포를 활용하여 예측을 수행합니다. 모델 학습 중에는 명시적인 학습 단계가 없으며, 대신 모든 데이터 포인트를 저장하고 예측 시 계산을 수행합니다.이러한 특징 때문에 KNN은 비모수(non-parametric), 게으른 학습(lazy learning) 알고리즘으로 분류됩니다.1.1 KNN의 작동 원리새로운 데이터 포인트(예측 대상)가 주어지면:기존 데이터와의 거리를 계산합니다.가장 가까운 K개의 데이터 포인트를 선택합니다.분류 문제: K개의 이웃에서 가장 많이 등장한 클래스를 예측값으로 선택.회귀 문제: K개의 이웃의 평균값 또는 중앙값을 .. 2025. 1. 21.
[머신러닝 알고리즘] Linear Regression, 선형 회귀에 대해서 연속형 변수를 예측하기 위한 가장 기본적이고 직관적인 지도학습 알고리즘입력 변수 - 출력 변수 간의 관계를 선형 방정식으로 표현1. 선형 회귀의 기본 아이디어선형 회귀는 주어진 데이터에서 **최적의 직선(선형 모델)**을 찾아내는 것이 목표입니다. 이 직선은 입력 변수 XXX와 출력 변수 yyy 간의 관계를 나타냅니다. 2. 선형 회귀의 목적선형 회귀는 주어진 데이터에 가장 잘 맞는 직선을 찾는 것입니다. 이를 위해 **오차(Residuals)**를 최소화해야 합니다.오차는 실제 값과 예측값의 차이로 정의됩니다.3. 손실 함수(Loss Function)3.1 최소제곱법(Ordinary Least Squares, OLS)선형 회귀는 일반적으로 최소제곱법을 사용하여 최적의 회귀 계수를 찾습니다.목표: 잔차(.. 2025. 1. 21.
[머신러닝 알고리즘] Random Forest, 렌덤 포레스트에 대해서 앙상블 학습 기법 중 하나여러개의 결정트리를 조합하여 성능을 향상시키는 지도학습 알고리즘분류와 회귀문제 해결1. 랜덤 포레스트의 기본 개념랜덤 포레스트는 단일 결정 트리의 단점을 보완하기 위해 개발된 알고리즘으로, 다수결 투표(Voting) 또는 평균(Averaging)을 통해 최종 예측을 만듭니다.단일 결정 트리의 한계:결정 트리는 데이터에 매우 민감하며 과적합(Overfitting)되기 쉽습니다.랜덤 포레스트는 여러 트리를 결합해 과적합을 방지하고, 더 안정적이며 강건한 예측을 제공합니다.2. 랜덤 포레스트의 작동 원리랜덤 포레스트는 다음 과정을 통해 학습과 예측을 수행합니다:2.1 배깅(Bootstrap Aggregating)배깅은 데이터 샘플을 무작위로 중복 추출(Resampling)하여 여러 개.. 2025. 1. 21.
[머신러닝 알고리즘] SVM, support vecotr macine에 대해서 지도학습 알고리즘분류 및 회귀 문제 해결에 사용고차원 데이터에서도 효과적으로 동작작은 데이터셋에서도 높은 성능 발휘1. SVM의 기본 아이디어SVM의 기본 목적은 데이터를 두 개의 클래스로 분류하는 최적의 결정 경계(Decision Boundary)를 찾는 것입니다. 이때 최적의 결정 경계는 클래스 간 여백(Margin)이 최대화되는 초평면(Hyperplane)입니다.초평면(Hyperplane): 데이터 포인트를 구분하는 N-1차원 평면. 예를 들어, 2차원에서는 1차원 선, 3차원에서는 2차원 평면이 초평면이 됩니다.마진(Margin): 두 클래스 데이터와 초평면 간의 최소 거리.핵심 아이디어:여백이 최대화되면 모델의 일반화 성능이 좋아져 새로운 데이터에도 잘 동작합니다2. 핵심 개념2.1 서포트 벡터.. 2025. 1. 21.
[데이터 분류] 범주형 데이터, 수치형 데이터 데이터의 범주화명목형 데이터 (Nominal Data): 순서나 크기가 없는 데이터로, 성별, 색상 등의 값이 해당됩니다.순위형 데이터 (Ordinal Data): 순서는 있지만, 값들 간의 간격이 명확하지 않은 데이터로, 예를 들어, 만족도(매우 불만족~매우 만족) 같은 경우입니다.범주형 데이터 (Categorical Data):순위형 데이터의 전처리: 레이블 인코딩순위형 데이터를 레이블 인코딩하는 것은 일반적으로 올바른 접근입니다.매우 불만족 = 1,불만족 = 2,보통 = 3,만족 = 4,매우 만족 = 5.피드백:상수의 방향성상수가 순위에 따라 큰 값으로 부여되는지, 작은 값으로 부여되는지는 분석 목적에 따라 다를 수 있습니다.일반적으로 높은 순위에 큰 값을 부여합니다. 예를 들어, 만족도에서 "매우.. 2025. 1. 21.
[캐글] 타이타닉 튜토리얼_1 순서 1. 데이터 파악2. 결측치 파악3. 결측지가 50% 이상이면 columns 삭제4. 중앙값, 최빈값, 평균값 등으로 결측값 채우기5. 더미데이터 분류(명목형 데이터)6. X_train, Y_train, X_test 데이터 세트 생성6. 각종 알고리즘 적용 후 수치 파악 - 결측치 한눈에 보도록 구현한 함수for col in train_df.columns: print('{:>11}:\t percent of NA-data {:.2f}%'.format(col, 100*train_df[col].isnull().sum()/train_df[col].shape[0] - .info() => 데이터 타입, 결측치, 이름 등을 전반적으로 파악할 수 있어서 용이함, train, test df의 info를 한 블럭에 .. 2025. 1. 14.
반응형