본문 바로가기
AI

[데이터 분류] 범주형 데이터, 수치형 데이터

by mindun 2025. 1. 21.
반응형

데이터의 범주화

    • 명목형 데이터 (Nominal Data): 순서나 크기가 없는 데이터로, 성별, 색상 등의 값이 해당됩니다.
    • 순위형 데이터 (Ordinal Data): 순서는 있지만, 값들 간의 간격이 명확하지 않은 데이터로, 예를 들어, 만족도(매우 불만족~매우 만족) 같은 경우입니다.범주형 데이터 (Categorical Data):

순위형 데이터의 전처리: 레이블 인코딩

  • 순위형 데이터를 레이블 인코딩하는 것은 일반적으로 올바른 접근입니다.
    • 매우 불만족 = 1,
    • 불만족 = 2,
    • 보통 = 3,
    • 만족 = 4,
    • 매우 만족 = 5.

피드백:

  1. 상수의 방향성
    • 상수가 순위에 따라 큰 값으로 부여되는지, 작은 값으로 부여되는지는 분석 목적에 따라 다를 수 있습니다.
    • 일반적으로 높은 순위에 큰 값을 부여합니다. 예를 들어, 만족도에서 "매우 만족"을 더 높은 값으로 두는 것이 직관적이기 때문입니다.
  2. 선형 알고리즘과 레이블 인코딩의 제한점
    • 선형 알고리즘(예: 선형 회귀)은 입력 변수와 출력 변수 간의 선형 관계를 가정합니다.
    • 순위형 데이터에 레이블 인코딩을 적용했을 때, 모델이 이 숫자를 연속형 변수처럼 해석할 수 있습니다. 즉, 값 사이의 간격(예: 1과 2, 4와 5)이 동일하다고 가정하게 됩니다.
    • 하지만 순위형 데이터의 실제 간격은 불균형할 수 있기 때문에, 선형 모델에서 부정확한 결과를 초래할 수 있습니다.

대안

  • 순위형 데이터도 원핫 인코딩을 사용하거나, 타겟 변수에 따라 특정 기법(예: 타겟 인코딩, 벡터화 등)을 적용할 수 있습니다.
  • 특히 선형 모델을 사용할 때, 순위형 데이터 처리 방식에 신중을 기할 필요가 있습니다.

추가 피드백

  • 명목형 데이터를 처리할 때, 카테고리 수가 매우 많은 경우에는 차원 축소 기법(예: PCA, 임베딩)을 고려할 수 있습니다.
  • 순위형 데이터는 사용하는 알고리즘에 따라 처리 방식이 달라질 수 있으며, 비선형 알고리즘(예: 트리 기반 모델)은 레이블 인코딩된 데이터를 문제없이 처리할 수 있습니다.

추천 보완점

  1. 상수의 방향성과 선형 모델에서의 한계를 조금 더 구체적으로 정리하면 좋습니다.
  2. 알고리즘에 따라 데이터 전처리 기법을 선택해야 한다는 점도 명확히 언급하면 더 완성도 높은 설명이 될 것 같습니다.

최종 정리: 

데이터는 범주형과 수치형으로 나뉩니다.

  • 범주형 데이터는 명목형(순서 없음)과 순위형(순서 있음)으로 구분됩니다.
  • 명목형 데이터는 One-Hot 인코딩으로 처리하며, 카테고리가 많을 경우 차원의 저주 문제에 주의해야 합니다.
  • 순위형 데이터는 일반적으로 레이블 인코딩으로 처리하며, 순위가 높은 값에 더 큰 숫자를 부여하는 것이 직관적입니다.

단, 선형 알고리즘(예: 선형 회귀)에서는 레이블 인코딩된 순위형 데이터를 사용할 때 주의가 필요합니다. 모델이 값 간의 간격을 동일하게 간주할 수 있기 때문입니다. 이런 경우에는 원핫 인코딩이나 비선형 모델을 사용하는 것이 더 적합할 수 있습니다.

반응형