통계적 가설 검정 p-값
p값(p-value)은 통계적 가설 검정에서 귀무가설(null hypothesis, H0)이 참이라는 전제 하에, 현재의 데이터와 같거나 더 극단적인 결과가 나올 확률을 의미한다. p값은 관측된 데이터가 귀무가설과 얼마나 일치하는지를 수치적으로 표현하는 지표이다.
1 개념[편집 | 원본 편집]
p값은 검정통계량(test statistic)이 특정 값보다 크거나 작을 확률을 계산하여 구한다. 이 확률이 미리 정한 유의수준(significance level, α)보다 작으면, 귀무가설을 기각할 수 있다.
즉, p값이 작을수록 관측된 결과가 귀무가설 하에서 발생하기 어려운 것으로 간주되며, 이는 귀무가설이 맞지 않을 가능성이 높다는 의미로 해석된다.
2 해석[편집 | 원본 편집]
- p값 ≤ α: 귀무가설을 기각할 수 있다 (통계적으로 유의미함)
- p값 > α: 귀무가설을 기각할 수 없다 (통계적으로 유의미하지 않음)
예시:
- p값 = 0.03, α = 0.05 → 기각
- p값 = 0.08, α = 0.05 → 기각하지 않음
3 계산 예시[편집 | 원본 편집]
3.1 부품의 평균 길이 (검정 실패)[편집 | 원본 편집]
어떤 회사가 생산하는 부품의 평균 길이가 10cm인지 검정하려고 한다. 표본 9개를 측정했더니 다음과 같은 데이터가 나왔다:
- 8.9, 9.7, 10.2, 10.5, 9.8, 10.1, 9.6, 10.3, 10.0
가설 설정
- 귀무가설: H0: μ = 10
- 대립가설: H1: μ ≠ 10 (양측 검정)
계산 결과
- 표본 평균 x̄ = 9.9
- 표본 표준편차 s ≈ 0.25
- 표본 크기 n = 9
검정통계량:
- t = (x̄ - μ) / (s / √n) = (9.9 - 10) / (0.25 / √9) ≈ -1.2
자유도 df = n - 1 = 8일 때, t분포표를 참고하거나 계산기를 사용하면:
- p값 ≈ 0.26 (양측 검정이므로, t = -1.2에 해당하는 양쪽 면적의 합)
이 p값은 일반적인 유의수준 0.05보다 크므로, 귀무가설을 기각할 수 없다. 즉, "표본 평균이 9.9였지만 이는 우연히 발생할 수 있는 수준이며, 평균이 10이라는 주장에 반박할 근거는 충분하지 않다"고 해석된다.
3.2 코로나 치료약 (검정 성공)[편집 | 원본 편집]
어떤 제약회사가 코로나 치료약을 개발했으며, 이 약이 회복 기간을 줄여주는 효과가 있는지를 검정하고자 한다.
임상시험 결과:
- 신약을 복용한 집단(n = 10): 회복일수 = 9, 10, 8, 9, 7, 11, 10, 8, 9, 10
- 기존 치료를 받은 집단(기준 평균 회복일수): μ = 11
가설 설정
- 귀무가설: H0: 신약은 기존 치료와 회복일수에 차이가 없다 (μ = 11)
- 대립가설: H1: 신약은 회복일수를 줄인다 (μ < 11) → 단측 검정(one-tailed test)
계산 결과
- 표본 평균 x̄ = 9.1
- 표본 표준편차 s ≈ 1.1
- 표본 크기 n = 10
검정통계량:
- t = (x̄ - μ) / (s / √n) = (9.1 - 11) / (1.1 / √10) ≈ -5.45
자유도 df = 9일 때, t = -5.45는 매우 극단적인 값이다.
- t분포표나 계산기를 통해 구한 p값 ≈ 0.0003
이 값은 일반적인 유의수준 0.05보다 훨씬 작으므로, 귀무가설을 강하게 기각할 수 있다. 즉 신약이 기존 치료보다 회복일수를 통계적으로 유의미하게 줄여주는 효과가 있다고 결론 내릴 수 있다.
4 오해[편집 | 원본 편집]
- p값은 귀무가설이 참일 확률이 아니다.
- p값은 대립가설이 참일 확률도 아니다.
- p값이 작다고 해서 효과의 크기(effect size)가 크다는 뜻은 아니다.
5 시각적 이해[편집 | 원본 편집]
p값은 보통 정규분포나 t분포 그래프에서 관측값보다 더 극단적인 영역의 면적으로 시각화된다. 양측 검정(two-tailed test)에서는 양 끝단의 면적 합이 p값이다.
6 같이 보기[편집 | 원본 편집]
7 참고 문헌[편집 | 원본 편집]
- Wasserman, L. (2004). All of Statistics: A Concise Course in Statistical Inference. Springer.
- Goodman, S. N. (2008). A dirty dozen: twelve p-value misconceptions. Seminars in Hematology, 45(3), 135–140.