반응형
- 연속형 변수를 예측하기 위한 가장 기본적이고 직관적인 지도학습 알고리즘
- 입력 변수 - 출력 변수 간의 관계를 선형 방정식으로 표현
1. 선형 회귀의 기본 아이디어
선형 회귀는 주어진 데이터에서 **최적의 직선(선형 모델)**을 찾아내는 것이 목표입니다. 이 직선은 입력 변수 XX와 출력 변수 yy 간의 관계를 나타냅니다.
2. 선형 회귀의 목적
- 선형 회귀는 주어진 데이터에 가장 잘 맞는 직선을 찾는 것입니다. 이를 위해 **오차(Residuals)**를 최소화해야 합니다.
- 오차는 실제 값과 예측값의 차이로 정의됩니다.
3. 손실 함수(Loss Function)
3.1 최소제곱법(Ordinary Least Squares, OLS)
선형 회귀는 일반적으로 최소제곱법을 사용하여 최적의 회귀 계수를 찾습니다.
- 목표: 잔차(residual)의 제곱합을 최소화하는 계수를 찾는 것.
3.2 평균 제곱 오차(Mean Squared Error, MSE)
- 데이터를 통해 손실을 평가할 때 자주 사용하는 척도
5. 가정(Assumptions)
선형 회귀는 다음과 같은 가정을 바탕으로 작동합니다. 이 가정들이 만족되지 않으면 모델 성능이 저하될 수 있습니다.
5.1 선형성(Linearity)
- 독립 변수와 종속 변수 간의 관계가 선형이어야 합니다.
5.2 독립성(Independence)
- 각 관측치는 서로 독립적이어야 합니다.
5.3 등분산성(Homoscedasticity)
- 잔차의 분산이 일정해야 합니다.
5.4 정규성(Normality)
- 잔차가 정규분포를 따라야 합니다.
5.5 다중 공선성(Multicollinearity) 없음
- 독립 변수들 간에 강한 상관관계가 없어야 합니다.
6. 장점과 단점
6.1 장점
- 간단하고 직관적:
선형 회귀는 기본적인 수학적 원리에 기반하며, 해석하기 쉽습니다. - 효율적:
계산이 빠르고, 대규모 데이터에도 적합합니다. - 확장 가능:
다중 선형 회귀 및 정규화 기법(Lasso, Ridge 등)으로 확장 가능.
6.2 단점
- 선형성 가정:
데이터가 선형 관계를 따르지 않으면 성능이 저하됩니다. - 이상치에 민감:
이상치(Outliers)가 모델에 큰 영향을 미칠 수 있습니다. - 다중 공선성 문제:
독립 변수들 간의 상관관계가 높으면 모델 성능이 저하됩니다. - 비선형 문제 처리 불가:
선형 회귀는 비선형 관계를 설명할 수 없습니다.
선형 회귀의 실제 응용 사례
- 경제학: 주택 가격 예측, 소비 지출 예측.
- 마케팅: 광고 비용과 매출 간의 관계 분석.
- 의료: 질병 발생률 예측.
- 공학: 기계 성능 분석 및 예측.
- 자연과학: 물리적 현상 모델링.
반응형
'AI' 카테고리의 다른 글
| [머신러닝 알고리즘] KNN, k-최근접 이웃 알고리즘에 대해서 (0) | 2025.01.21 |
|---|---|
| [머신러닝 알고리즘] Random Forest, 렌덤 포레스트에 대해서 (0) | 2025.01.21 |
| [머신러닝 알고리즘] SVM, support vecotr macine에 대해서 (0) | 2025.01.21 |
| [데이터 분류] 범주형 데이터, 수치형 데이터 (0) | 2025.01.21 |
| [캐글] 타이타닉 튜토리얼_1 (0) | 2025.01.14 |