결정 계수

IT 위키

결정 계수(決定係數, Coefficient of Determination)는 회귀 분석에서 예측된 결과가 실제 데이터를 얼마나 잘 설명하는지를 나타내는 지표로, 일반적으로 R² (R 제곱값)로 표기된다. 값의 범위는 0에서 1 사이이며, 1에 가까울수록 모델이 데이터를 잘 설명하고 있음을 의미한다.

1 정의[편집 | 원본 편집]

결정 계수는 총 변동 중에서 회귀 모형이 설명할 수 있는 변동의 비율이다.

R² = 1 − (RSS / TSS)

여기서,

  • RSS (Residual Sum of Squares): 예측 오차의 제곱합
  • TSS (Total Sum of Squares): 전체 데이터의 변동량
  • R² = 1이면 완벽한 예측, R² = 0이면 평균으로 예측한 것과 동일한 수준

2 수식[편집 | 원본 편집]

R² = 1 − (Σ (yi − ŷi)² / Σ (yi − ȳ)²)

  • yi: 실제값
  • ŷi: 예측값
  • ȳ: 실제값의 평균

3 특징[편집 | 원본 편집]

  • R² = 1: 완벽한 설명력 (예측값 = 실제값)
  • R² = 0: 아무런 설명력 없음 (예측 = 평균)
  • R² < 0: 모델이 평균보다 못한 예측을 할 때 (비정상적인 모델일 수 있음)

4 예시[편집 | 원본 편집]

실제값: [3, 4, 5, 6] 예측값: [2.8, 4.1, 5.2, 5.9]

  • TSS = Σ (yi − ȳ)² = (3−4.5)² + (4−4.5)² + (5−4.5)² + (6−4.5)² = 5
  • RSS = Σ (yi − ŷi)² ≈ 0.10
  • R² = 1 − (0.10 / 5) = 0.98 → 매우 높은 설명력

5 해석 시 주의사항[편집 | 원본 편집]

  • R²이 높다고 항상 좋은 모델은 아님
    • 과적합된 모델도 R²이 높을 수 있음
    • 실제 예측 정확도는 RMSE, MAE 등과 함께 확인해야 함
  • 비교 시 같은 데이터셋 기반이어야 유효
    • 서로 다른 데이터셋이나 문제에서의 R² 비교는 부정확
  • 선형 회귀에선 의미가 명확하지만, 비선형 모델이나 변환된 변수 사용 시 해석에 주의 필요

6 조정된 결정 계수[편집 | 원본 편집]

변수 개수가 많아질수록 R²은 인위적으로 높아질 수 있으므로, 변수 수를 보정한 조정된 R²도 함께 사용하는 것이 좋다.

조정 R² = 1 − [(1−R²) × (n−1)/(n−p−1)]

  • n: 샘플 수
  • p: 독립 변수 개수

7 같이 보기[편집 | 원본 편집]

8 참고 문헌[편집 | 원본 편집]

  • Géron, A. (2019). Hands-On Machine Learning with Scikit-Learn, Keras, and TensorFlow. O'Reilly Media.
  • Montgomery, D. C., Peck, E. A., & Vining, G. G. (2012). Introduction to Linear Regression Analysis.