익명 사용자
로그인하지 않음
토론
기여
계정 만들기
로그인
IT 위키
검색
쿨백-라이블러 발산
편집하기
IT 위키
이름공간
문서
토론
더 보기
더 보기
문서 행위
읽기
편집
원본 편집
역사
경고:
로그인하지 않았습니다. 편집을 하면 IP 주소가 공개되게 됩니다.
로그인
하거나
계정을 생성하면
편집자가 사용자 이름으로 기록되고, 다른 장점도 있습니다.
스팸 방지 검사입니다. 이것을 입력하지
마세요
!
'''쿨백-라이블러 발산''' (Kullback–Leibler Divergence, 약칭 '''KL Divergence''')은 두 확률 분포 간의 차이를 측정하는 통계적 척도이다. 주로 확률 모델의 예측 분포와 실제 분포의 불일치 정도를 정량화하는 데 사용되며, 정보이론, 기계학습, 언어모델(LLM) 등에서 광범위하게 활용된다. ==정의== KL 발산은 두 개의 확률분포 \( P(x) \) (참값 분포)와 \( Q(x) \) (모델 분포)가 있을 때 다음과 같이 정의된다. <nowiki>\[ D_{KL}(P \parallel Q) = \sum_{x \in \mathcal{X}} P(x) \log \frac{P(x)}{Q(x)} \]</nowiki> 연속 확률분포의 경우 적분형으로 표현된다. \[ D_{KL}(P \parallel Q) = \int_{-\infty}^{\infty} p(x) \log \frac{p(x)}{q(x)} \, dx \] ==의미== KL 발산은 두 분포가 동일할수록 0에 가까워지고, 차이가 커질수록 양의 값을 갖는다. 이는 두 확률분포의 차이를 정보량 관점에서 얼마나 비효율적인지로 해석할 수 있다. 예를 들어, \( Q(x) \)가 실제 분포 \( P(x) \)를 근사하려 할 때 KL 발산이 작을수록 \( Q \)가 \( P \)를 잘 표현한다고 본다. *\( D_{KL}(P‖Q) = 0 \) ⟶ 두 분포가 완전히 동일함 *\( D_{KL}(P‖Q) > 0 \) ⟶ 분포가 다름 (즉, 정보 손실이 존재) *비대칭성: \( D_{KL}(P‖Q) \neq D_{KL}(Q‖P) \) ==정보이론적 해석== KL 발산은 정보이론에서 “어떤 분포 \( Q \)”를 사용해 “진짜 분포 \( P \)”를 표현할 때 발생하는 여분의 정보량(expected extra bits) 으로 해석된다. 즉, 잘못된 확률모델 \( Q \)로 데이터를 인코딩할 때 발생하는 비효율성(inefficiency) 의 척도이다. ==기계학습에서의 활용== KL 발산은 다양한 기계학습 및 딥러닝 손실 함수의 핵심 요소로 사용된다. *'''지식 증류(Knowledge Distillation)''': Teacher 모델의 soft label 분포 \( P_T \)와 Student 모델의 예측 분포 \( P_S \) 간의 차이를 최소화하기 위해 사용된다. \[ \mathcal{L}_{KD} = D_{KL}(P_T \parallel P_S) \] *'''변분 오토인코더(VAE)''': 잠재 변수 \( z \)의 사전 분포 \( p(z) \)와 인코더 분포 \( q(z|x) \) 간의 차이를 정규화 항으로 추가한다. *'''정규화된 언어 모델 학습''': 모델 출력 확률 \( Q(x) \)이 타깃 분포 \( P(x) \)와 최대한 일치하도록 KL 발산을 최소화한다. ==특징== *비대칭적: \( D_{KL}(P‖Q) \)는 \( D_{KL}(Q‖P) \)와 동일하지 않다. *음수가 될 수 없음: \( D_{KL}(P‖Q) \ge 0 \) *거리(metric)가 아님: 삼각부등식을 만족하지 않으며, “발산(divergence)”이라 부른다. *교차 엔트로피와의 관계: 교차 엔트로피 \( H(P, Q) \)는 KL 발산과 엔트로피의 합으로 표현된다. \[ H(P, Q) = H(P) + D_{KL}(P‖Q) \] ==예시== 두 개의 확률분포가 있을 때, \( P = [0.8, 0.2] \), \( Q = [0.6, 0.4] \)라 하면: \[ D_{KL}(P‖Q) = 0.8 \log \frac{0.8}{0.6} + 0.2 \log \frac{0.2}{0.4} \approx 0.091 \text{ (nat 단위)} \] 이는 \( Q \)가 \( P \)를 완벽히 설명하지 못하고 약간의 정보 손실이 존재함을 의미한다. ==관련 개념== *[[지식 증류]] ==참고 문헌== *Kullback, S., & Leibler, R. A. (1951). *On information and sufficiency*. Annals of Mathematical Statistics, 22(1), 79–86. *Hinton, G., Vinyals, O., & Dean, J. (2015). *Distilling the knowledge in a neural network*. arXiv:1503.02531. *Cover, T. M., & Thomas, J. A. (2006). *Elements of Information Theory*. Wiley-Interscience. [[분류:통계학]] [[분류:인공지능]]
요약:
IT 위키에서의 모든 기여는 크리에이티브 커먼즈 저작자표시-비영리-동일조건변경허락 라이선스로 배포된다는 점을 유의해 주세요(자세한 내용에 대해서는
IT 위키:저작권
문서를 읽어주세요). 만약 여기에 동의하지 않는다면 문서를 저장하지 말아 주세요.
또한, 직접 작성했거나 퍼블릭 도메인과 같은 자유 문서에서 가져왔다는 것을 보증해야 합니다.
저작권이 있는 내용을 허가 없이 저장하지 마세요!
취소
편집 도움말
(새 창에서 열림)
둘러보기
둘러보기
대문
최근 바뀜
광고
위키 도구
위키 도구
특수 문서 목록
문서 도구
문서 도구
사용자 문서 도구
더 보기
여기를 가리키는 문서
가리키는 글의 최근 바뀜
문서 정보
문서 기록