자유도 (통계)
IT 위키
자유도(degrees of freedom, df)는 통계에서 표본 또는 통계량 계산에 사용되는 독립적인 값의 수를 의미한다. 자유도는 통계 검정, 분산 추정, 회귀 분석 등 다양한 통계적 분석에서 핵심적인 개념이다.
개념[편집 | 원본 편집]
어떤 제약 조건 하에서 자유롭게 변할 수 있는 데이터의 수를 자유도라고 한다. 예를 들어, 평균을 이미 알고 있는 표본에서 나머지 값들이 평균을 만족해야 하므로 마지막 값은 자유롭게 정할 수 없게 된다.
즉, 자유도는 전체 값의 개수 - 제약 조건의 수로 계산된다.
기본 예시[편집 | 원본 편집]
어떤 표본 데이터 3개가 있고, 이들의 평균이 10으로 고정되어 있다고 하자.
- 첫 번째 값과 두 번째 값은 자유롭게 선택 가능
- 그러나 평균이 10이 되어야 하므로 세 번째 값은 앞의 두 값에 의해 자동으로 결정됨
→ 자유도 = 3 - 1 = 2
활용 예시[편집 | 원본 편집]
- 표본 분산 계산: n개의 표본으로 모분산을 추정할 때는 자유도 n - 1을 사용한다. 이는 표본 평균을 이용한 제약 조건이 하나 존재하기 때문이다.
- t-검정: t분포는 자유도를 기준으로 형태가 바뀌며, 표본 수가 많아질수록 정규분포와 유사해진다. 일표본 t검정에서는 자유도 df = n - 1
- 카이제곱 검정: df = (행의 수 - 1) × (열의 수 - 1)
- 회귀 분석: 자유도는 일반적으로 df = n - k - 1 (n은 관측치 수, k는 독립 변수 수)
수식 요약[편집 | 원본 편집]
- 표본 분산의 자유도: df = n - 1
- 일표본 t검정: df = n - 1
- 독립 이표본 t검정 (등분산 가정 시): df = n₁ + n₂ - 2
- 선형 회귀분석의 잔차 자유도: df = n - k - 1
왜 자유도가 중요한가[편집 | 원본 편집]
자유도는 통계 분포의 형태를 결정하며, 검정 통계량의 신뢰성과 정확성에 직접적인 영향을 준다. 예를 들어 자유도가 낮을수록 t분포는 꼬리가 두꺼워져 더 보수적인 해석을 하게 된다.
같이 보기[편집 | 원본 편집]
참고 문헌[편집 | 원본 편집]
- Moore, D. S., McCabe, G. P., & Craig, B. A. (2012). Introduction to the Practice of Statistics. W. H. Freeman.
- Wasserman, L. (2004). All of Statistics: A Concise Course in Statistical Inference. Springer.