공분산: 두 판 사이의 차이
IT 위키
AlanTuring (토론 | 기여) (새 문서: 공분산(共分散, covariance)은 두 확률 변수 간의 선형 관계를 나타내는 통계량이다. 공분산은 두 변수의 편차 곱의 평균으로 정의되며, 양의 값을 가지면 두 변수는 대체로 같은 방향으로 변화하고, 음의 값을 가지면 반대 방향으로 변화한다. ==정의== 두 확률 변수 X와 Y에 대해, 공분산은 다음과 같이 정의된다. *모집단 공분산: Cov(X, Y) = E[(X - μ<sub>X</sub>)(Y - μ<sub>Y</sub>)...) |
AlanTuring (토론 | 기여) 편집 요약 없음 |
||
1번째 줄: | 1번째 줄: | ||
공분산(共分散, covariance)은 두 확률 변수 간의 선형 관계를 나타내는 통계량이다. 공분산은 두 변수의 편차 곱의 평균으로 정의되며, 양의 값을 가지면 두 변수는 대체로 같은 방향으로 변화하고, 음의 값을 가지면 반대 방향으로 변화한다. | 공분산(共分散, covariance)은 두 확률 변수 간의 선형 관계를 나타내는 통계량이다. 공분산은 두 변수의 편차 곱의 평균으로 정의되며, 양의 값을 가지면 두 변수는 대체로 같은 방향으로 변화하고, 음의 값을 가지면 반대 방향으로 변화한다. | ||
==정의== | ==정의 == | ||
두 확률 변수 X와 Y에 대해, 공분산은 다음과 같이 정의된다. | 두 확률 변수 X와 Y에 대해, 공분산은 다음과 같이 정의된다. | ||
*모집단 공분산: Cov(X, Y) = E[(X - μ<sub>X</sub>)(Y - μ<sub>Y</sub>)] | *모집단 공분산: Cov(X, Y) = E[(X - μ<sub>X</sub>)(Y - μ<sub>Y</sub>)] | ||
*표본 공분산: S<sub>XY</sub> = (1 / (n - 1)) ∑<sub>i=1</sub><sup>n</sup> (x<sub>i</sub> - x̄)(y<sub>i</sub> - ȳ) | *표본 공분산: S<sub>XY</sub> = (1 / (n - 1)) ∑<sub>i=1</sub><sup>n</sup> (x<sub>i</sub> - x̄)(y<sub>i</sub> - ȳ) | ||
여기서 E는 기대값, μ<sub>X</sub>와 μ<sub>Y</sub>는 각각 X와 Y의 기대값, x̄와 ȳ는 표본 평균이다. | 여기서 E는 기대값, μ<sub>X</sub>와 μ<sub>Y</sub>는 각각 X와 Y의 기대값, x̄와 ȳ는 표본 평균이다. | ||
==성질== | ==성질==*Cov(X, Y) > 0: X와 Y가 정적인 상관 관계를 가진다. | ||
*Cov(X, Y) > 0: X와 Y가 정적인 상관 관계를 가진다. | * Cov(X, Y) < 0: X와 Y가 부적인 상관 관계를 가진다. | ||
*Cov(X, Y) < 0: X와 Y가 부적인 상관 관계를 가진다. | |||
*Cov(X, Y) = 0: X와 Y 사이에 선형 상관 관계가 없다. 그러나 이는 독립성을 의미하지는 않는다. | *Cov(X, Y) = 0: X와 Y 사이에 선형 상관 관계가 없다. 그러나 이는 독립성을 의미하지는 않는다. | ||
*Cov(X, X) = Var(X): 자기 자신과의 공분산은 분산과 같다. | *Cov(X, X) = Var(X): 자기 자신과의 공분산은 분산과 같다. | ||
*상수 a, b에 대해 Cov(aX + b, Y) = a × Cov(X, Y)이다. | * 상수 a, b에 대해 Cov(aX + b, Y) = a × Cov(X, Y)이다. | ||
==계산 예시== | ==계산 예시== | ||
다음은 두 변수 X와 Y의 표본 공분산을 구하는 실제 예시이다. | |||
*x̄ = 2 | |||
*( | 표본 데이터: | ||
* | *X = [2, 4, 6, 8] | ||
*Y = [1, 3, 5, 7] | |||
1. 평균 계산: | |||
* x̄ = (2 + 4 + 6 + 8) / 4 = 5 | |||
*ȳ = (1 + 3 + 5 + 7) / 4 = 4 | |||
2. 편차 곱 계산: | |||
*(2−5)(1−4) = (−3)(−3) = 9 | |||
*(4−5)(3−4) = (−1)(−1) = 1 | |||
*(6−5)(5−4) = (1)(1) = 1 | |||
*(8−5)(7−4) = (3)(3) = 9 | |||
3. 편차 곱의 합: 9 + 1 + 1 + 9 = 20 | |||
4. 표본 공분산: | |||
*S<sub>XY</sub> = 20 / (4−1) = 20 / 3 ≈ 6.67 | |||
따라서, 이 데이터의 공분산은 약 6.67이다. | |||
==공분산과 상관 계수== | ==공분산과 상관 계수== | ||
공분산은 단위에 따라 값의 크기가 달라지므로 비교가 어렵다. 이를 보완하기 위해 두 변수의 표준편차로 나누어 정규화한 값이 상관 계수(correlation coefficient)이다. | 공분산은 단위에 따라 값의 크기가 달라지므로 비교가 어렵다. 이를 보완하기 위해 두 변수의 표준편차로 나누어 정규화한 값이 상관 계수(correlation coefficient)이다. | ||
21번째 줄: | 34번째 줄: | ||
==공분산 행렬== | ==공분산 행렬== | ||
다변량 데이터에서는 여러 변수 간의 공분산을 행렬로 표현할 수 있다. 이를 공분산 행렬(covariance matrix)이라고 하며, 대칭 행렬의 성질을 가진다. | 다변량 데이터에서는 여러 변수 간의 공분산을 행렬로 표현할 수 있다. 이를 공분산 행렬(covariance matrix)이라고 하며, 대칭 행렬의 성질을 가진다. | ||
예시: | |||
*변수 X, Y, Z에 대한 공분산 행렬은 다음과 같다. | |||
<pre> | |||
| Var(X) Cov(X,Y) Cov(X,Z) | | |||
| Cov(Y,X) Var(Y) Cov(Y,Z) | | |||
| Cov(Z,X) Cov(Z,Y) Var(Z) | | |||
</pre> | |||
==활용== | ==활용== | ||
*통계학과 데이터 과학에서 변수 간의 관계 파악 | *통계학과 데이터 과학에서 변수 간의 관계 파악 |
2025년 5월 12일 (월) 05:25 기준 최신판
공분산(共分散, covariance)은 두 확률 변수 간의 선형 관계를 나타내는 통계량이다. 공분산은 두 변수의 편차 곱의 평균으로 정의되며, 양의 값을 가지면 두 변수는 대체로 같은 방향으로 변화하고, 음의 값을 가지면 반대 방향으로 변화한다.
정의[편집 | 원본 편집]
두 확률 변수 X와 Y에 대해, 공분산은 다음과 같이 정의된다.
- 모집단 공분산: Cov(X, Y) = E[(X - μX)(Y - μY)]
- 표본 공분산: SXY = (1 / (n - 1)) ∑i=1n (xi - x̄)(yi - ȳ)
여기서 E는 기대값, μX와 μY는 각각 X와 Y의 기대값, x̄와 ȳ는 표본 평균이다. ==성질==*Cov(X, Y) > 0: X와 Y가 정적인 상관 관계를 가진다.
- Cov(X, Y) < 0: X와 Y가 부적인 상관 관계를 가진다.
- Cov(X, Y) = 0: X와 Y 사이에 선형 상관 관계가 없다. 그러나 이는 독립성을 의미하지는 않는다.
- Cov(X, X) = Var(X): 자기 자신과의 공분산은 분산과 같다.
- 상수 a, b에 대해 Cov(aX + b, Y) = a × Cov(X, Y)이다.
계산 예시[편집 | 원본 편집]
다음은 두 변수 X와 Y의 표본 공분산을 구하는 실제 예시이다.
표본 데이터:
- X = [2, 4, 6, 8]
- Y = [1, 3, 5, 7]
1. 평균 계산:
- x̄ = (2 + 4 + 6 + 8) / 4 = 5
- ȳ = (1 + 3 + 5 + 7) / 4 = 4
2. 편차 곱 계산:
- (2−5)(1−4) = (−3)(−3) = 9
- (4−5)(3−4) = (−1)(−1) = 1
- (6−5)(5−4) = (1)(1) = 1
- (8−5)(7−4) = (3)(3) = 9
3. 편차 곱의 합: 9 + 1 + 1 + 9 = 20
4. 표본 공분산:
- SXY = 20 / (4−1) = 20 / 3 ≈ 6.67
따라서, 이 데이터의 공분산은 약 6.67이다.
공분산과 상관 계수[편집 | 원본 편집]
공분산은 단위에 따라 값의 크기가 달라지므로 비교가 어렵다. 이를 보완하기 위해 두 변수의 표준편차로 나누어 정규화한 값이 상관 계수(correlation coefficient)이다.
- Corr(X, Y) = Cov(X, Y) / (σX × σY)
공분산 행렬[편집 | 원본 편집]
다변량 데이터에서는 여러 변수 간의 공분산을 행렬로 표현할 수 있다. 이를 공분산 행렬(covariance matrix)이라고 하며, 대칭 행렬의 성질을 가진다.
예시:
- 변수 X, Y, Z에 대한 공분산 행렬은 다음과 같다.
| Var(X) Cov(X,Y) Cov(X,Z) | | Cov(Y,X) Var(Y) Cov(Y,Z) | | Cov(Z,X) Cov(Z,Y) Var(Z) |
활용[편집 | 원본 편집]
- 통계학과 데이터 과학에서 변수 간의 관계 파악
- 주성분 분석(PCA)에서 데이터 분산 방향 파악
- 금융 분야에서 포트폴리오 이론 및 리스크 분석
같이 보기[편집 | 원본 편집]
참고 문헌[편집 | 원본 편집]
- Casella, G., & Berger, R. L. (2002). Statistical Inference (2nd ed.). Duxbury.
- Wasserman, L. (2004). All of Statistics: A Concise Course in Statistical Inference. Springer.