쿨백-라이블러 발산
쿨백-라이블러 발산 (Kullback–Leibler Divergence, 약칭 KL Divergence)은 두 확률 분포 간의 차이를 측정하는 통계적 척도이다. 주로 확률 모델의 예측 분포와 실제 분포의 불일치 정도를 정량화하는 데 사용되며, 정보이론, 기계학습, 언어모델(LLM) 등에서 광범위하게 활용된다.
정의[편집 | 원본 편집]
KL 발산은 두 개의 확률분포 \( P(x) \) (참값 분포)와 \( Q(x) \) (모델 분포)가 있을 때 다음과 같이 정의된다.
\[ D_{KL}(P \parallel Q) = \sum_{x \in \mathcal{X}} P(x) \log \frac{P(x)}{Q(x)} \]
연속 확률분포의 경우 적분형으로 표현된다.
\[ D_{KL}(P \parallel Q) = \int_{-\infty}^{\infty} p(x) \log \frac{p(x)}{q(x)} \, dx \]
의미[편집 | 원본 편집]
KL 발산은 두 분포가 동일할수록 0에 가까워지고, 차이가 커질수록 양의 값을 갖는다. 이는 두 확률분포의 차이를 정보량 관점에서 얼마나 비효율적인지로 해석할 수 있다. 예를 들어, \( Q(x) \)가 실제 분포 \( P(x) \)를 근사하려 할 때 KL 발산이 작을수록 \( Q \)가 \( P \)를 잘 표현한다고 본다.
- \( D_{KL}(P‖Q) = 0 \) ⟶ 두 분포가 완전히 동일함
- \( D_{KL}(P‖Q) > 0 \) ⟶ 분포가 다름 (즉, 정보 손실이 존재)
- 비대칭성: \( D_{KL}(P‖Q) \neq D_{KL}(Q‖P) \)
정보이론적 해석[편집 | 원본 편집]
KL 발산은 정보이론에서 “어떤 분포 \( Q \)”를 사용해 “진짜 분포 \( P \)”를 표현할 때 발생하는 여분의 정보량(expected extra bits) 으로 해석된다. 즉, 잘못된 확률모델 \( Q \)로 데이터를 인코딩할 때 발생하는 비효율성(inefficiency) 의 척도이다.
기계학습에서의 활용[편집 | 원본 편집]
KL 발산은 다양한 기계학습 및 딥러닝 손실 함수의 핵심 요소로 사용된다.
- 지식 증류(Knowledge Distillation): Teacher 모델의 soft label 분포 \( P_T \)와 Student 모델의 예측 분포 \( P_S \) 간의 차이를 최소화하기 위해 사용된다.
\[ \mathcal{L}_{KD} = D_{KL}(P_T \parallel P_S) \]
- 변분 오토인코더(VAE): 잠재 변수 \( z \)의 사전 분포 \( p(z) \)와 인코더 분포 \( q(z|x) \) 간의 차이를 정규화 항으로 추가한다.
- 정규화된 언어 모델 학습: 모델 출력 확률 \( Q(x) \)이 타깃 분포 \( P(x) \)와 최대한 일치하도록 KL 발산을 최소화한다.
특징[편집 | 원본 편집]
- 비대칭적: \( D_{KL}(P‖Q) \)는 \( D_{KL}(Q‖P) \)와 동일하지 않다.
- 음수가 될 수 없음: \( D_{KL}(P‖Q) \ge 0 \)
- 거리(metric)가 아님: 삼각부등식을 만족하지 않으며, “발산(divergence)”이라 부른다.
- 교차 엔트로피와의 관계: 교차 엔트로피 \( H(P, Q) \)는 KL 발산과 엔트로피의 합으로 표현된다.
\[ H(P, Q) = H(P) + D_{KL}(P‖Q) \]
예시[편집 | 원본 편집]
두 개의 확률분포가 있을 때, \( P = [0.8, 0.2] \), \( Q = [0.6, 0.4] \)라 하면:
\[ D_{KL}(P‖Q) = 0.8 \log \frac{0.8}{0.6} + 0.2 \log \frac{0.2}{0.4} \approx 0.091 \text{ (nat 단위)} \]
이는 \( Q \)가 \( P \)를 완벽히 설명하지 못하고 약간의 정보 손실이 존재함을 의미한다.
관련 개념[편집 | 원본 편집]
참고 문헌[편집 | 원본 편집]
- Kullback, S., & Leibler, R. A. (1951). *On information and sufficiency*. Annals of Mathematical Statistics, 22(1), 79–86.
- Hinton, G., Vinyals, O., & Dean, J. (2015). *Distilling the knowledge in a neural network*. arXiv:1503.02531.
- Cover, T. M., & Thomas, J. A. (2006). *Elements of Information Theory*. Wiley-Interscience.