본문 바로가기
AI

[머신러닝 알고리즘] Linear Regression, 선형 회귀에 대해서

by mindun 2025. 1. 21.
반응형
  • 연속형 변수를 예측하기 위한 가장 기본적이고 직관적인 지도학습 알고리즘
  • 입력 변수 - 출력 변수 간의 관계를 선형 방정식으로 표현

1. 선형 회귀의 기본 아이디어

선형 회귀는 주어진 데이터에서 **최적의 직선(선형 모델)**을 찾아내는 것이 목표입니다. 이 직선은 입력 변수 XX와 출력 변수 yy 간의 관계를 나타냅니다.

 


2. 선형 회귀의 목적

  • 선형 회귀는 주어진 데이터에 가장 잘 맞는 직선을 찾는 것입니다. 이를 위해 **오차(Residuals)**를 최소화해야 합니다.
  • 오차는 실제 값과 예측값의 차이로 정의됩니다.

3. 손실 함수(Loss Function)

3.1 최소제곱법(Ordinary Least Squares, OLS)

선형 회귀는 일반적으로 최소제곱법을 사용하여 최적의 회귀 계수를 찾습니다.

  • 목표: 잔차(residual)의 제곱합을 최소화하는 계수를 찾는 것.

3.2 평균 제곱 오차(Mean Squared Error, MSE)

  • 데이터를 통해 손실을 평가할 때 자주 사용하는 척도

5. 가정(Assumptions)

선형 회귀는 다음과 같은 가정을 바탕으로 작동합니다. 이 가정들이 만족되지 않으면 모델 성능이 저하될 수 있습니다.

5.1 선형성(Linearity)

  • 독립 변수와 종속 변수 간의 관계가 선형이어야 합니다.

5.2 독립성(Independence)

  • 각 관측치는 서로 독립적이어야 합니다.

5.3 등분산성(Homoscedasticity)

  • 잔차의 분산이 일정해야 합니다.

5.4 정규성(Normality)

  • 잔차가 정규분포를 따라야 합니다.

5.5 다중 공선성(Multicollinearity) 없음

  • 독립 변수들 간에 강한 상관관계가 없어야 합니다.

6. 장점과 단점

6.1 장점

  1. 간단하고 직관적:
    선형 회귀는 기본적인 수학적 원리에 기반하며, 해석하기 쉽습니다.
  2. 효율적:
    계산이 빠르고, 대규모 데이터에도 적합합니다.
  3. 확장 가능:
    다중 선형 회귀 및 정규화 기법(Lasso, Ridge 등)으로 확장 가능.

6.2 단점

  1. 선형성 가정:
    데이터가 선형 관계를 따르지 않으면 성능이 저하됩니다.
  2. 이상치에 민감:
    이상치(Outliers)가 모델에 큰 영향을 미칠 수 있습니다.
  3. 다중 공선성 문제:
    독립 변수들 간의 상관관계가 높으면 모델 성능이 저하됩니다.
  4. 비선형 문제 처리 불가:
    선형 회귀는 비선형 관계를 설명할 수 없습니다.

선형 회귀의 실제 응용 사례

  1. 경제학: 주택 가격 예측, 소비 지출 예측.
  2. 마케팅: 광고 비용과 매출 간의 관계 분석.
  3. 의료: 질병 발생률 예측.
  4. 공학: 기계 성능 분석 및 예측.
  5. 자연과학: 물리적 현상 모델링.
반응형