공분산: 두 판 사이의 차이

2025년 5월 12일 (월) 05:24 판

공분산(共分散, covariance)은 두 확률 변수 간의 선형 관계를 나타내는 통계량이다. 공분산은 두 변수의 편차 곱의 평균으로 정의되며, 양의 값을 가지면 두 변수는 대체로 같은 방향으로 변화하고, 음의 값을 가지면 반대 방향으로 변화한다.

정의

두 확률 변수 X와 Y에 대해, 공분산은 다음과 같이 정의된다.

모집단 공분산: Cov(X, Y) = E[(X - μ_X)(Y - μ_Y)]
표본 공분산: S_XY = (1 / (n - 1)) ∑_i=1ⁿ (x_i - x̄)(y_i - ȳ)

여기서 E는 기대값, μ_X와 μ_Y는 각각 X와 Y의 기대값, x̄와 ȳ는 표본 평균이다.

성질

Cov(X, Y) > 0: X와 Y가 정적인 상관 관계를 가진다.
Cov(X, Y) < 0: X와 Y가 부적인 상관 관계를 가진다.
Cov(X, Y) = 0: X와 Y 사이에 선형 상관 관계가 없다. 그러나 이는 독립성을 의미하지는 않는다.
Cov(X, X) = Var(X): 자기 자신과의 공분산은 분산과 같다.
상수 a, b에 대해 Cov(aX + b, Y) = a × Cov(X, Y)이다.

계산 예시

어떤 두 변수 X = [1, 2, 3], Y = [4, 5, 6]의 표본 공분산은 다음과 같이 계산된다.

x̄ = 2, ȳ = 5
(1−2)(4−5) + (2−2)(5−5) + (3−2)(6−5) = 1 + 0 + 1 = 2
공분산 = 2 / (3−1) = 1

공분산과 상관 계수

공분산은 단위에 따라 값의 크기가 달라지므로 비교가 어렵다. 이를 보완하기 위해 두 변수의 표준편차로 나누어 정규화한 값이 상관 계수(correlation coefficient)이다.

Corr(X, Y) = Cov(X, Y) / (σ_X × σ_Y)

공분산 행렬

다변량 데이터에서는 여러 변수 간의 공분산을 행렬로 표현할 수 있다. 이를 공분산 행렬(covariance matrix)이라고 하며, 대칭 행렬의 성질을 가진다.

활용

통계학과 데이터 과학에서 변수 간의 관계 파악
주성분 분석(PCA)에서 데이터 분산 방향 파악
금융 분야에서 포트폴리오 이론 및 리스크 분석

같이 보기

참고 문헌

Casella, G., & Berger, R. L. (2002). Statistical Inference (2nd ed.). Duxbury.
Wasserman, L. (2004). All of Statistics: A Concise Course in Statistical Inference. Springer.

각주

익명 사용자

검색

공분산: 두 판 사이의 차이

이름공간

더 보기

문서 행위

2025년 5월 12일 (월) 05:24 판

목차

정의

성질

계산 예시

공분산과 상관 계수

공분산 행렬

활용

같이 보기

참고 문헌

각주

둘러보기

둘러보기

광고

위키 도구

위키 도구

익명 사용자

검색

공분산: 두 판 사이의 차이

2025년 5월 12일 (월) 05:24 판

정의

성질

계산 예시

공분산과 상관 계수

공분산 행렬

활용

같이 보기

참고 문헌

각주

둘러보기

위키 도구

문서 도구

분류 목록