잔차
IT 위키
잔차(residual)는 통계학에서 관측값과 예측값 사이의 차이를 의미한다. 회귀분석(regression analysis)에서 잔차는 각 관측치가 회귀직선에서 얼마나 떨어져 있는지를 나타내며, 모델의 예측오차를 측정하는 데 사용된다.
1 개념[편집 | 원본 편집]
선형 회귀모형에서는 다음과 같은 식이 기본이 된다:
Yi = Ŷi + ei
- Yi: 실제 관측값
- Ŷi: 예측값 (회귀식에 의해 추정된 값)
- ei: 잔차 = Yi − Ŷi
잔차는 관측된 데이터가 모델에 의해 얼마나 잘 설명되는지를 보여주며, 잔차가 작을수록 모델의 설명력이 높다고 해석할 수 있다.
2 특징[편집 | 원본 편집]
- 잔차들의 평균은 항상 0이다: Σei = 0
- 회귀선은 잔차의 제곱합(SSE: Sum of Squared Errors)을 최소화하는 방향으로 결정된다 → 최소제곱법(OLS: Ordinary Least Squares)
- 잔차는 관측값에서 나온 실제 오차이므로, 오차항(error term)과 구분된다. 오차항은 모델에서 가정된 이론적인 오차이고, 잔차는 그 추정값이다.
3 시각적 이해[편집 | 원본 편집]
산점도 위에 회귀선을 그렸을 때, 각 점과 회귀선 사이의 수직 거리들이 잔차다. 잔차를 그래프로 나타낸 잔차 플롯(residual plot)은 모델이 잘 맞는지, 비선형성, 이분산성, 이상치 등을 파악하는 데 유용하다.
4 활용[편집 | 원본 편집]
- 모델 적합도 평가: 잔차가 작을수록 모델이 데이터를 잘 설명한다고 본다
- 가정 진단: 잔차가 정규분포를 따르고 등분산성을 갖는지 검토함
- 이상치 탐지: 잔차가 매우 큰 관측값은 이상치일 수 있다
5 잔차 제곱합 (SSE)[편집 | 원본 편집]
SSE = Σ(Yi − Ŷi)² = Σei²
SSE는 전체 오차의 크기를 나타내며, 이를 줄이는 방향으로 회귀계수가 결정된다.
6 같이 보기[편집 | 원본 편집]
7 참고 문헌[편집 | 원본 편집]
- Montgomery, D. C., Peck, E. A., & Vining, G. G. (2012). Introduction to Linear Regression Analysis. Wiley.
- Weisberg, S. (2005). Applied Linear Regression (3rd ed.). Wiley.