익명 사용자
로그인하지 않음
토론
기여
계정 만들기
로그인
IT 위키
검색
OLS 회귀분석
편집하기
IT 위키
이름공간
문서
토론
더 보기
더 보기
문서 행위
읽기
편집
원본 편집
역사
경고:
로그인하지 않았습니다. 편집을 하면 IP 주소가 공개되게 됩니다.
로그인
하거나
계정을 생성하면
편집자가 사용자 이름으로 기록되고, 다른 장점도 있습니다.
스팸 방지 검사입니다. 이것을 입력하지
마세요
!
'''OLS 회귀분석'''(Ordinary Least Squares 회귀분석)은 관측된 자료에 가장 잘 맞는 직선(혹은 초평면)을 찾기 위해, 잔차의 제곱합을 최소화하는 회귀계수를 추정하는 방법이다. * 최소제곱법이라고도 한다. (ex. 최소제곱법 회귀분석) ==개념 및 목적== OLS는 독립 변수(설명 변수)와 종속 변수(반응 변수) 사이의 선형 관계를 모델링하고, 이 관계를 설명하는 계수들을 추정하는 통계적 방법이다. 회귀모형이 \[ y_i = \beta_0 + \beta_1 x_{i1} + \dots + \beta_p x_{ip} + \varepsilon_i \] 일 때, OLS는 관측치와 예측치의 차이인 잔차 \( \varepsilon_i = y_i - \hat y_i \) 의 제곱합 \[ \sum_{i=1}^n (y_i - \hat y_i)^2 \] 을 최소화하는 \(\beta\) 값을 구하는 방식이다. ==수식 표현과 해석== ===행렬식 표현=== 관측치를 벡터 \(\mathbf{y}\), 설명 변수 행렬을 \(\mathbf{X}\) (첫 열은 상수항을 위한 1)라 하면, 회귀계수 벡터를 \(\boldsymbol\beta\)라 할 때 \[ \hat{\boldsymbol\beta} = (X^T X)^{-1} X^T y \] 로 표현된다. 이 식은 OLS 해의 닫힌 형태(closed-form solution)를 보여 준다. ===단순 선형 회귀의 경우=== 독립 변수 \(x\) 하나만 있을 때, 회귀식은 \[ y = \beta_0 + \beta_1 x + \varepsilon \] 이고, \[ \hat \beta_1 = \frac{\sum (x_i - \bar x)(y_i - \bar y)}{\sum (x_i - \bar x)^2}, \quad \hat \beta_0 = \bar y - \hat \beta_1 \bar x \] 의 형태가 된다. ==가정 (OLS의 기본 조건)== OLS 추정이 유용하고 정확하려면 다음 가정들이 대체로 만족되어야 한다: #선형성 (Linearity): 종속 변수와 각 독립 변수 간의 관계가 선형이어야 한다. #독립성 (Independence of errors): 잔차 간에 상관관계가 없어야 한다. #등분산성 (Homoscedasticity): 잔차의 분산이 모든 관측치에서 동일해야 한다. #정규성 (Normality of errors): 잔차가 정규 분포를 따름 (주로 가설 검정 시 필요). #설명 변수와 오차의 독립성 (Exogeneity): 독립 변수는 오차항과 상관관계가 없어야 한다. #다중공선성 금지 (No perfect multicollinearity): 독립 변수들 간에 완전한 선형 결합 관계가 없어야 한다. 이러한 조건들이 모두 충족되면, Gauss-Markov 정리에 따라 OLS 추정량은 능동 추론선형 불편 추정량 중에서 최소 분산능동 추론을 갖는다 (즉 BLUE: Best Linear Unbiased Estimator) ==결과 해석 및 진단== OLS 회귀분석 결과에는 일반적으로 다음 요소들이 포함된다: *회귀계수 추정치 \(\hat\beta\), 표준오차 *t-통계량, p-값 → 각 계수가 유의한지 여부 *결정계수 \(R^2\), 수정 결정계수 Adjusted \(R^2\) → 모형의 설명력 *잔차 진단 **잔차 플롯 (잔차 vs 예측값 등) → 패턴 유무 검사 **정규성검정 (Q-Q 플롯, Shapiro-Wilk 등) **등분산성 검사 (예: Breusch-Pagan 검정) **자기상관성 검사 (Durbin-Watson 통계량 등) 이런 진단 과정을 통해 모형이 가정 위반을 하고 있지는 않은지 점검해야 한다. ==장점과 한계== ===장점=== *계산이 간단하고 직관적이다. *닫힌 형태의 해가 있어 효율적이다. *많은 통계 패키지(R, Python의 statsmodels 등)에서 기본으로 지원된다. ===한계 및 주의점=== *이상치(outlier)에 민감하다 (잔차 제곱합 방식이 이상치에 큰 패널티를 줌) *가정이 깨지면 추정 결과나 해석이 왜곡될 수 있다. *독립 변수 간 다중공선성이 강하면 계수 추정의 분산이 커진다. *비선형 관계를 포착할 수 없다 (선형 모형에만 적합). *설명 변수가 많거나 표본이 적을 때 과적합(overfitting) 위험이 있다. ==응용 및 확장== OLS는 기본적인 회귀방법이지만, 여러 상황에 따라 변형 또는 확장이 가능하다: *가중 최소제곱 (Weighted Least Squares, WLS) — 관측치별 가중치를 부여하여 이분산성 문제 완화 <ref>“Weighted least squares – Wikipedia”</ref> *일반화 최소제곱 (Generalized Least Squares, GLS) *강건 회귀 (Robust Regression) *정규화된 회귀 (Ridge, Lasso 등) ==같이 보기== *[[선형 회귀 분석]] *[[계수 추정]] *[[잔차 분석]] *[[가중 최소제곱법]] *[[다중공선성]] ==참고 문헌== ==각주== [[분류:통계학]]
요약:
IT 위키에서의 모든 기여는 크리에이티브 커먼즈 저작자표시-비영리-동일조건변경허락 라이선스로 배포된다는 점을 유의해 주세요(자세한 내용에 대해서는
IT 위키:저작권
문서를 읽어주세요). 만약 여기에 동의하지 않는다면 문서를 저장하지 말아 주세요.
또한, 직접 작성했거나 퍼블릭 도메인과 같은 자유 문서에서 가져왔다는 것을 보증해야 합니다.
저작권이 있는 내용을 허가 없이 저장하지 마세요!
취소
편집 도움말
(새 창에서 열림)
둘러보기
둘러보기
대문
최근 바뀜
광고
위키 도구
위키 도구
특수 문서 목록
문서 도구
문서 도구
사용자 문서 도구
더 보기
여기를 가리키는 문서
가리키는 글의 최근 바뀜
문서 정보
문서 기록