분산

IT 위키

분산(Variance)은 데이터가 평균을 중심으로 얼마나 퍼져 있는지를 나타내는 통계적 지표이다. 분산은 표준 편차의 제곱과 동일하며, 확률 이론과 통계학에서 데이터의 변동성을 측정하는 데 사용된다.

1 정의[편집 | 원본 편집]

분산은 각 데이터 값과 평균 간의 편차를 제곱하여 평균을 구한 값이다.

  • 모집단 분산(σ2)
    • σ2 = (1/N) * Σ (Xi - μ)2
  • 표본 분산(s2)
    • s2 = (1/(n-1)) * Σ (Xi - x̄)2

여기서,

  • Xi : 데이터의 각 값
  • μ : 모집단의 평균
  •  : 표본의 평균
  • N : 모집단 크기
  • n : 표본 크기
  • Σ : 합(sum) 연산

2 분산과 표준 편차의 차이[편집 | 원본 편집]

분산과 표준 편차는 모두 변동성을 측정하지만 다음과 같은 차이가 있다.

분산과 표준 편차의 비교
구분 분산 (Variance) 표준 편차 (Standard Deviation)
정의 편차의 제곱 평균 편차 제곱 평균의 제곱근
수식 σ2 = (1/N) * Σ (Xi - μ)2 σ = sqrt(σ2)
단위 원래 데이터의 제곱 단위 원래 데이터와 동일한 단위
해석 변동성을 수학적으로 분석하는 데 유용 데이터의 실제 분포를 직관적으로 해석하는 데 유용
사용 용도 확률론, 통계 모델, 분산 분석(ANOVA) 실험 결과의 변동성 분석, 리스크 평가

3 분산 계산 예제[편집 | 원본 편집]

다음 데이터 {3, 7, 7, 19, 21}의 분산을 계산한다.

  • 평균(μ) = (3 + 7 + 7 + 19 + 21) / 5 = 11.4
  • 각 값의 편차 = (-8.4, -4.4, -4.4, 7.6, 9.6)
  • 제곱한 값 = (70.56, 19.36, 19.36, 57.76, 92.16)
  • 모집단 분산(σ2) = (70.56 + 19.36 + 19.36 + 57.76 + 92.16) / 5 = 51.84
  • 표본 분산(s2) = (70.56 + 19.36 + 19.36 + 57.76 + 92.16) / 4 = 64.8

4 분산의 성질[편집 | 원본 편집]

  • 항상 0 이상이다.
  • 값이 평균에서 멀리 퍼져 있을수록 분산이 증가한다.
  • 변동성이 크면 분산도 증가한다.
  • 표준 편차의 제곱과 동일하다.

5 분산의 활용[편집 | 원본 편집]

  • 확률론
    • 확률변수의 분포를 분석하는 데 사용된다.
  • 통계 분석
    • 실험 결과의 변동성을 평가하는 데 활용된다.
  • 리스크 평가
    • 금융 및 투자에서 자산의 변동성을 측정하는 데 이용된다.

6 같이 보기[편집 | 원본 편집]

7 참고 문헌[편집 | 원본 편집]

  • Montgomery, D. C., & Runger, G. C. (2014). Applied Statistics and Probability for Engineers.
  • Wikipedia - Variance