본문 바로가기

AI

[머신러닝 알고리즘] Random Forest, 렌덤 포레스트에 대해서

by mindun 2025. 1. 21.

앙상블 학습 기법 중 하나
여러개의 결정트리를 조합하여 성능을 향상시키는 지도학습 알고리즘
분류와 회귀문제 해결

1. 랜덤 포레스트의 기본 개념

랜덤 포레스트는 단일 결정 트리의 단점을 보완하기 위해 개발된 알고리즘으로, 다수결 투표(Voting) 또는 평균(Averaging)을 통해 최종 예측을 만듭니다.

단일 결정 트리의 한계:
결정 트리는 데이터에 매우 민감하며 과적합(Overfitting)되기 쉽습니다.
랜덤 포레스트는 여러 트리를 결합해 과적합을 방지하고, 더 안정적이며 강건한 예측을 제공합니다.

2. 랜덤 포레스트의 작동 원리

랜덤 포레스트는 다음 과정을 통해 학습과 예측을 수행합니다:

2.1 배깅(Bootstrap Aggregating)

배깅은 데이터 샘플을 무작위로 중복 추출(Resampling)하여 여러 개의 훈련 데이터셋(Subset)을 생성하는 과정입니다.
각 훈련 데이터셋으로 독립적인 결정 트리를 학습합니다.
이를 통해 트리 간 상관성을 줄이고 편향(Bias) 및 분산(Variance)을 조절할 수 있습니다.

2.2 랜덤 특성 선택(Random Feature Selection)

각 결정 트리에서 노드를 분할할 때 전체 특성(Feature) 중 일부를 무작위로 선택하여 최적의 분할 기준(Split)을 찾습니다.
이는 트리 간 다양성을 증가시키고, 특정 특성에 과도하게 의존하는 현상을 방지합니다

2.3 앙상블 과정

분류(Classification):
각 트리가 예측한 클래스 결과를 투표(Voting)로 합산하여 최종 클래스를 결정합니다.
회귀(Regression):
각 트리의 예측값을 평균(Averaging)하여 최종 예측값을 산출합니다.

3. 랜덤 포레스트의 주요 특징

3.1 앙상블 학습

여러 약한 학습자(Weak Learner)를 결합하여 강한 학습자(Strong Learner)를 생성합니다.
단일 트리보다 일반화 성능이 뛰어납니다.

3.2 비선형 관계 처리

결정 트리를 기반으로 하기 때문에 선형적이지 않은 데이터 구조에도 잘 동작합니다.

3.3 내장된 변수 중요도 평가

랜덤 포레스트는 각 특성이 예측에 얼마나 기여했는지 평가(Feature Importance)하는 기능을 제공합니다.
이를 통해 중요한 특성을 식별할 수 있습니다.

4. 랜덤 포레스트의 장점과 단점

4.1 장점

과적합 방지:
여러 트리의 예측 결과를 평균화하여 과적합을 방지합니다.
다양한 데이터 처리 가능:
분류와 회귀 문제 모두에 적용 가능하며, 비선형 데이터도 효과적으로 처리합니다.
노이즈에 강함:
개별 트리의 과도한 학습(Overfitting)을 완화하며, 노이즈의 영향을 줄입니다.
변수 중요도 평가:
중요한 특성을 식별할 수 있는 내장 기능이 있어 해석 가능성이 높습니다.

4.2 단점

복잡성과 계산 비용:
트리가 많아질수록 학습과 예측 시간이 길어지고, 메모리 사용량도 증가합니다.
해석 어려움:
단일 트리보다 모델 구조가 복잡해 해석하기 어려울 수 있습니다.
높은 차원의 데이터에 대한 한계:
고차원 데이터에서 효율성이 떨어질 수 있으며, 최적의 성능을 위해 하이퍼파라미터 튜닝이 필요합니다.

5. 랜덤 포레스트의 핵심 하이퍼파라미터

랜덤 포레스트의 성능은 하이퍼파라미터 설정에 따라 크게 영향을 받습니다. 주요 하이퍼파라미터는 다음과 같습니다.

5.1 n_estimators

생성할 결정 트리의 개수입니다.
트리가 많아질수록 성능이 좋아질 수 있지만, 계산 비용도 증가합니다.

5.2 max_features

각 노드를 분할할 때 사용할 특성의 최대 개수입니다.
기본값은 분류에서 , 회귀에서는 전체 특성 개수입니다.

5.3 max_depth

각 트리의 최대 깊이를 제한합니다.
과적합을 방지하기 위해 설정할 수 있습니다.

5.4 min_samples_split

노드를 분할하기 위해 필요한 최소 샘플 수입니다.
값이 클수록 모델이 단순해지고, 과적합이 줄어듭니다.

5.5 min_samples_leaf

리프 노드에 있어야 하는 최소 샘플 수입니다.
과적합 방지에 유용합니다

6. 랜덤 포레스트의 작동 방식 예시

분류 문제:

랜덤 포레스트는 예를 들어, 환자의 건강 상태(정상 vs 비정상)를 예측할 때 여러 결정 트리를 생성하고, 각 트리의 예측값을 다수결 투표를 통해 최종 클래스(정상 또는 비정상)로 예측합니다.

회귀 문제:

랜덤 포레스트는 주택 가격을 예측할 때 각 트리가 주어진 특성에 기반한 예측값을 생성하고, 이 값들을 평균내어 최종 예측값을 제공합니다.

랜덤 포레스트의 실제 응용 사례

랜덤 포레스트는 다양한 분야에서 널리 사용됩니다.

의료: 질병 진단, 유전자 데이터 분석.
금융: 사기 탐지, 신용 점수 예측.
마케팅: 고객 이탈 예측, 추천 시스템.
생물학: 단백질 구조 예측, 생물종 분류.
컴퓨터 비전: 이미지 분류 및 객체 탐지.

'AI' 카테고리의 다른 글

[머신러닝 알고리즘] KNN, k-최근접 이웃 알고리즘에 대해서 (0)	2025.01.21
[머신러닝 알고리즘] Linear Regression, 선형 회귀에 대해서 (0)	2025.01.21
[머신러닝 알고리즘] SVM, support vecotr macine에 대해서 (0)	2025.01.21
[데이터 분류] 범주형 데이터, 수치형 데이터 (0)	2025.01.21
[캐글] 타이타닉 튜토리얼_1 (0)	2025.01.14

티스토리툴바