본문 바로가기

AI

[머신러닝 알고리즘] Linear Regression, 선형 회귀에 대해서

by mindun 2025. 1. 21.

연속형 변수를 예측하기 위한 가장 기본적이고 직관적인 지도학습 알고리즘
입력 변수 - 출력 변수 간의 관계를 선형 방정식으로 표현

1. 선형 회귀의 기본 아이디어

선형 회귀는 주어진 데이터에서 **최적의 직선(선형 모델)**을 찾아내는 것이 목표입니다. 이 직선은 입력 변수 XX와 출력 변수 yy 간의 관계를 나타냅니다.

2. 선형 회귀의 목적

선형 회귀는 주어진 데이터에 가장 잘 맞는 직선을 찾는 것입니다. 이를 위해 **오차(Residuals)**를 최소화해야 합니다.
오차는 실제 값과 예측값의 차이로 정의됩니다.

3. 손실 함수(Loss Function)

3.1 최소제곱법(Ordinary Least Squares, OLS)

선형 회귀는 일반적으로 최소제곱법을 사용하여 최적의 회귀 계수를 찾습니다.

목표: 잔차(residual)의 제곱합을 최소화하는 계수를 찾는 것.

3.2 평균 제곱 오차(Mean Squared Error, MSE)

데이터를 통해 손실을 평가할 때 자주 사용하는 척도

5. 가정(Assumptions)

선형 회귀는 다음과 같은 가정을 바탕으로 작동합니다. 이 가정들이 만족되지 않으면 모델 성능이 저하될 수 있습니다.

5.1 선형성(Linearity)

독립 변수와 종속 변수 간의 관계가 선형이어야 합니다.

5.2 독립성(Independence)

각 관측치는 서로 독립적이어야 합니다.

5.3 등분산성(Homoscedasticity)

잔차의 분산이 일정해야 합니다.

5.4 정규성(Normality)

잔차가 정규분포를 따라야 합니다.

5.5 다중 공선성(Multicollinearity) 없음

독립 변수들 간에 강한 상관관계가 없어야 합니다.

6. 장점과 단점

6.1 장점

간단하고 직관적:
선형 회귀는 기본적인 수학적 원리에 기반하며, 해석하기 쉽습니다.
효율적:
계산이 빠르고, 대규모 데이터에도 적합합니다.
확장 가능:
다중 선형 회귀 및 정규화 기법(Lasso, Ridge 등)으로 확장 가능.

6.2 단점

선형성 가정:
데이터가 선형 관계를 따르지 않으면 성능이 저하됩니다.
이상치에 민감:
이상치(Outliers)가 모델에 큰 영향을 미칠 수 있습니다.
다중 공선성 문제:
독립 변수들 간의 상관관계가 높으면 모델 성능이 저하됩니다.
비선형 문제 처리 불가:
선형 회귀는 비선형 관계를 설명할 수 없습니다.

선형 회귀의 실제 응용 사례

경제학: 주택 가격 예측, 소비 지출 예측.
마케팅: 광고 비용과 매출 간의 관계 분석.
의료: 질병 발생률 예측.
공학: 기계 성능 분석 및 예측.
자연과학: 물리적 현상 모델링.

'AI' 카테고리의 다른 글

[머신러닝 알고리즘] KNN, k-최근접 이웃 알고리즘에 대해서 (0)	2025.01.21
[머신러닝 알고리즘] Random Forest, 렌덤 포레스트에 대해서 (0)	2025.01.21
[머신러닝 알고리즘] SVM, support vecotr macine에 대해서 (0)	2025.01.21
[데이터 분류] 범주형 데이터, 수치형 데이터 (0)	2025.01.21
[캐글] 타이타닉 튜토리얼_1 (0)	2025.01.14

티스토리툴바