OLS 회귀분석

IT 위키
인공무능 (토론 | 기여)님의 2025년 10월 14일 (화) 06:16 판 (새 문서: '''OLS 회귀분석'''(Ordinary Least Squares 회귀분석)은 관측된 자료에 가장 잘 맞는 직선(혹은 초평면)을 찾기 위해, 잔차의 제곱합을 최소화하는 회귀계수를 추정하는 방법이다. * 최소제곱법이라고도 한다. (ex. 최소제곱법 회귀분석) ==개념 및 목적== OLS는 독립 변수(설명 변수)와 종속 변수(반응 변수) 사이의 선형 관계를 모델링하고, 이 관계를 설명하는 계수들을 추정...)
(차이) ← 이전 판 | 최신판 (차이) | 다음 판 → (차이)

OLS 회귀분석(Ordinary Least Squares 회귀분석)은 관측된 자료에 가장 잘 맞는 직선(혹은 초평면)을 찾기 위해, 잔차의 제곱합을 최소화하는 회귀계수를 추정하는 방법이다.

  • 최소제곱법이라고도 한다. (ex. 최소제곱법 회귀분석)

개념 및 목적

OLS는 독립 변수(설명 변수)와 종속 변수(반응 변수) 사이의 선형 관계를 모델링하고, 이 관계를 설명하는 계수들을 추정하는 통계적 방법이다. 회귀모형이 \[ y_i = \beta_0 + \beta_1 x_{i1} + \dots + \beta_p x_{ip} + \varepsilon_i \] 일 때, OLS는 관측치와 예측치의 차이인 잔차 \( \varepsilon_i = y_i - \hat y_i \) 의 제곱합 \[ \sum_{i=1}^n (y_i - \hat y_i)^2 \] 을 최소화하는 \(\beta\) 값을 구하는 방식이다.

수식 표현과 해석

행렬식 표현

관측치를 벡터 \(\mathbf{y}\), 설명 변수 행렬을 \(\mathbf{X}\) (첫 열은 상수항을 위한 1)라 하면, 회귀계수 벡터를 \(\boldsymbol\beta\)라 할 때 \[ \hat{\boldsymbol\beta} = (X^T X)^{-1} X^T y \] 로 표현된다. 이 식은 OLS 해의 닫힌 형태(closed-form solution)를 보여 준다.

단순 선형 회귀의 경우

독립 변수 \(x\) 하나만 있을 때, 회귀식은 \[ y = \beta_0 + \beta_1 x + \varepsilon \] 이고, \[ \hat \beta_1 = \frac{\sum (x_i - \bar x)(y_i - \bar y)}{\sum (x_i - \bar x)^2}, \quad \hat \beta_0 = \bar y - \hat \beta_1 \bar x \] 의 형태가 된다.

가정 (OLS의 기본 조건)

OLS 추정이 유용하고 정확하려면 다음 가정들이 대체로 만족되어야 한다:

  1. 선형성 (Linearity): 종속 변수와 각 독립 변수 간의 관계가 선형이어야 한다.
  2. 독립성 (Independence of errors): 잔차 간에 상관관계가 없어야 한다.
  3. 등분산성 (Homoscedasticity): 잔차의 분산이 모든 관측치에서 동일해야 한다.
  4. 정규성 (Normality of errors): 잔차가 정규 분포를 따름 (주로 가설 검정 시 필요).
  5. 설명 변수와 오차의 독립성 (Exogeneity): 독립 변수는 오차항과 상관관계가 없어야 한다.
  6. 다중공선성 금지 (No perfect multicollinearity): 독립 변수들 간에 완전한 선형 결합 관계가 없어야 한다.

이러한 조건들이 모두 충족되면, Gauss-Markov 정리에 따라 OLS 추정량은 **선형 불편 추정량 중에서 최소 분산**을 갖는다 (즉 BLUE: Best Linear Unbiased Estimator)

결과 해석 및 진단

OLS 회귀분석 결과에는 일반적으로 다음 요소들이 포함된다:

  • 회귀계수 추정치 \(\hat\beta\), 표준오차
  • t-통계량, p-값 → 각 계수가 유의한지 여부
  • 결정계수 \(R^2\), 수정 결정계수 Adjusted \(R^2\) → 모형의 설명력
  • 잔차 진단
    • 잔차 플롯 (잔차 vs 예측값 등) → 패턴 유무 검사
    • 정규성검정 (Q-Q 플롯, Shapiro-Wilk 등)
    • 등분산성 검사 (예: Breusch-Pagan 검정)
    • 자기상관성 검사 (Durbin-Watson 통계량 등)

이런 진단 과정을 통해 모형이 가정 위반을 하고 있지는 않은지 점검해야 한다.

장점과 한계

장점

  • 계산이 간단하고 직관적이다.
  • 닫힌 형태의 해가 있어 효율적이다.
  • 많은 통계 패키지(R, Python의 statsmodels 등)에서 기본으로 지원된다.

한계 및 주의점

  • 이상치(outlier)에 민감하다 (잔차 제곱합 방식이 이상치에 큰 패널티를 줌)
  • 가정이 깨지면 추정 결과나 해석이 왜곡될 수 있다.
  • 독립 변수 간 다중공선성이 강하면 계수 추정의 분산이 커진다.
  • 비선형 관계를 포착할 수 없다 (선형 모형에만 적합).
  • 설명 변수가 많거나 표본이 적을 때 과적합(overfitting) 위험이 있다.

응용 및 확장

OLS는 기본적인 회귀방법이지만, 여러 상황에 따라 변형 또는 확장이 가능하다:

  • 가중 최소제곱 (Weighted Least Squares, WLS) — 관측치별 가중치를 부여하여 이분산성 문제 완화 [1]
  • 일반화 최소제곱 (Generalized Least Squares, GLS)
  • 강건 회귀 (Robust Regression)
  • 정규화된 회귀 (Ridge, Lasso 등)

같이 보기

참고 문헌

각주

  1. “Weighted least squares – Wikipedia”