평균 제곱근 오차

IT 위키

평균 제곱근 오차(RMSE, Root Mean Squared Error)는 회귀 분석에서 예측값과 실제값 간의 차이를 측정하는 대표적인 평가 지표이다. 오차(Residual)의 제곱 평균에 루트를 씌운 값으로, 단위가 원래 데이터와 동일하여 해석이 직관적이다.

1 정의[편집 | 원본 편집]

평균 제곱근 오차는 다음 수식으로 정의된다.

RMSE = sqrt( (1/n) * Σ (yi - ŷi)² )

여기서,

  • yi: 실제값
  • ŷi: 예측값
  • n: 샘플 수

2 특징[편집 | 원본 편집]

  • 오차가 클수록 RMSE 값도 커지며, 큰 오차에 더 민감하게 반응한다.
  • RMSE는 항상 0 이상의 값을 가지며, 0이면 완벽한 예측을 의미한다.
  • 단위가 원래 데이터와 같아 해석이 용이하다.

3 예시[편집 | 원본 편집]

실제값과 예측값이 다음과 같다고 하자.

  • 실제값: [3, 5, 2.5, 7]
  • 예측값: [2.5, 5, 4, 8]

오차 제곱합 = (3−2.5)² + (5−5)² + (2.5−4)² + (7−8)² = 0.25 + 0 + 2.25 + 1 = 3.5 RMSE = sqrt(3.5 / 4) ≈ 0.935

4 실제 활용 방법[편집 | 원본 편집]

RMSE는 절대적인 수치로는 그 의미가 제한적이므로, 단독으로 해석하기보다는 다음과 같은 방식으로 활용된다.

  • 모델 간 비교
    • 동일한 테스트 데이터셋에 대해 여러 회귀 모델을 평가하고, RMSE 값이 가장 작은 모델을 선택한다.
    • 예: 선형 회귀 vs 랜덤 포레스트 회귀 vs XGBoost 회귀 등
  • 베이스라인 대비 성능 평가
    • 평균값을 예측하는 단순 모델의 RMSE와 비교하여, 학습된 모델이 얼마나 성능이 개선되었는지 판단한다.
  • 비율 지표와 함께 사용
    • MAE, MAPE, R² 등 다른 지표와 함께 해석하여 오차의 절대값과 상대적 분산 설명력을 종합적으로 평가한다.
  • 특정 도메인의 기준값과 비교
    • 도메인 지식이 있는 경우, 해당 산업이나 데이터셋 특성에 따라 '허용 가능한 오차 수준'과 비교한다.
    • 예: RMSE가 5인 경우, 부동산 가격 예측에서는 허용되지만, 체온 예측에서는 과도한 오차일 수 있음

5 장점[편집 | 원본 편집]

  • 예측값과 실제값의 차이를 직관적으로 표현 가능
  • 단위가 원래 데이터와 같아 성능 해석에 유리함
  • 다른 모델과의 비교가 용이함

6 단점[편집 | 원본 편집]

  • 이상치에 민감함 (오차를 제곱하기 때문)
  • 각 샘플의 중요도가 동일하다고 가정

7 활용[편집 | 원본 편집]

  • 회귀 문제의 성능 평가 지표
  • 머신 러닝, 통계 모델, 시계열 분석 등에서 예측 정확도 측정
  • 하이퍼파라미터 튜닝의 목적 함수로 사용 가능

8 같이 보기[편집 | 원본 편집]

9 참고 문헌[편집 | 원본 편집]

  • Géron, A. (2019). Hands-On Machine Learning with Scikit-Learn, Keras, and TensorFlow. O'Reilly Media.
  • Hyndman, R. J., & Athanasopoulos, G. (2018). Forecasting: Principles and Practice.