평균 제곱근 오차

IT 위키
빅데이터분석기사 (토론 | 기여)님의 2025년 4월 9일 (수) 09:36 판
(차이) ← 이전 판 | 최신판 (차이) | 다음 판 → (차이)

평균 제곱근 오차(RMSE, Root Mean Squared Error)는 회귀 분석에서 예측값과 실제값 간의 차이를 측정하는 대표적인 평가 지표이다. 오차(Residual)의 제곱 평균에 루트를 씌운 값으로, 단위가 원래 데이터와 동일하여 해석이 직관적이다.

정의[편집 | 원본 편집]

평균 제곱근 오차는 다음 수식으로 정의된다.

RMSE = sqrt( (1/n) * Σ (yi - ŷi)² )

여기서,

  • yi: 실제값
  • ŷi: 예측값
  • n: 샘플 수

특징[편집 | 원본 편집]

  • 오차가 클수록 RMSE 값도 커지며, 큰 오차에 더 민감하게 반응한다.
  • RMSE는 항상 0 이상의 값을 가지며, 0이면 완벽한 예측을 의미한다.
  • 단위가 원래 데이터와 같아 해석이 용이하다.

예시[편집 | 원본 편집]

실제값과 예측값이 다음과 같다고 하자.

  • 실제값: [3, 5, 2.5, 7]
  • 예측값: [2.5, 5, 4, 8]

오차 제곱합 = (3−2.5)² + (5−5)² + (2.5−4)² + (7−8)² = 0.25 + 0 + 2.25 + 1 = 3.5 RMSE = sqrt(3.5 / 4) ≈ 0.935

실제 활용 방법[편집 | 원본 편집]

RMSE는 절대적인 수치로는 그 의미가 제한적이므로, 단독으로 해석하기보다는 다음과 같은 방식으로 활용된다.

  • 모델 간 비교
    • 동일한 테스트 데이터셋에 대해 여러 회귀 모델을 평가하고, RMSE 값이 가장 작은 모델을 선택한다.
    • 예: 선형 회귀 vs 랜덤 포레스트 회귀 vs XGBoost 회귀 등
  • 베이스라인 대비 성능 평가
    • 평균값을 예측하는 단순 모델의 RMSE와 비교하여, 학습된 모델이 얼마나 성능이 개선되었는지 판단한다.
  • 비율 지표와 함께 사용
    • MAE, MAPE, R² 등 다른 지표와 함께 해석하여 오차의 절대값과 상대적 분산 설명력을 종합적으로 평가한다.
  • 특정 도메인의 기준값과 비교
    • 도메인 지식이 있는 경우, 해당 산업이나 데이터셋 특성에 따라 '허용 가능한 오차 수준'과 비교한다.
    • 예: RMSE가 5인 경우, 부동산 가격 예측에서는 허용되지만, 체온 예측에서는 과도한 오차일 수 있음

장점[편집 | 원본 편집]

  • 예측값과 실제값의 차이를 직관적으로 표현 가능
  • 단위가 원래 데이터와 같아 성능 해석에 유리함
  • 다른 모델과의 비교가 용이함

단점[편집 | 원본 편집]

  • 이상치에 민감함 (오차를 제곱하기 때문)
  • 각 샘플의 중요도가 동일하다고 가정

활용[편집 | 원본 편집]

  • 회귀 문제의 성능 평가 지표
  • 머신 러닝, 통계 모델, 시계열 분석 등에서 예측 정확도 측정
  • 하이퍼파라미터 튜닝의 목적 함수로 사용 가능

같이 보기[편집 | 원본 편집]

참고 문헌[편집 | 원본 편집]

  • Géron, A. (2019). Hands-On Machine Learning with Scikit-Learn, Keras, and TensorFlow. O'Reilly Media.
  • Hyndman, R. J., & Athanasopoulos, G. (2018). Forecasting: Principles and Practice.