변분 추론
IT 위키
변분 추론(Variational Inference, VI)은 베이지안 추론에서 직접 계산하기 어려운 사후 확률 분포를, 최적화 기법을 활용해 해석 가능한 분포군 안에서 근사하는 방식이다.
개념 및 기본 아이디어[편집 | 원본 편집]
- 베이지안 통계 모델에서는 관측 데이터 \(x\)와 잠재 변수 \(z\)가 있을 때 사후 분포 \(p(z|x)\)를 구하는 것이 핵심 목표지만, 보통 이 분포는 적분이 불가능하거나 계산이 매우 복잡하다 [1]
- 변분 추론은 근사 분포 \(q(z)\)를 설정하고, 이 \(q\)가 진짜 사후 분포 \(p(z|x)\)과 최대한 유사하도록 KL 발산(Kullback–Leibler divergence)을 최소화하는 방식으로 접근한다 [2]
- 이 과정을 통해 계산이 용이한 분포군(예: 정규분포 계열)을 사용하면서도 근사적 추론을 수행할 수 있다 [3]
수학적 표현[편집 | 원본 편집]
- 증거 하한(Evidence Lower Bound, ELBO)은 다음과 같이 정의된다:
\[ \mathrm{ELBO}(q) = \mathbb{E}_{q(z)}[\log p(x, z)] - \mathbb{E}_{q(z)}[\log q(z)] \]
- 이 ELBO는 로그 증거 \(\log p(x)\)의 하한이며, ELBO를 최대화하는 것은 KL 발산 \(D_{\mathrm{KL}}(q(z)\|p(z|x))\)을 최소화하는 것과 동치다 [4]
응용 및 특징[편집 | 원본 편집]
- 변분 오토인코더(Variational Autoencoder, VAE) 등 딥러닝 모델에서 잠재 변수 모델 학습에 널리 사용된다
- 근사 분포의 구조(독립성 가정 등)에 따라 근사의 품질이 크게 달라진다
- 근사가 잘 되지 않는 경우 편향(bias)이 발생할 수 있으며, 복잡한 모델에서는 최적화를 잘 수행하는 것이 도전이다
같이 보기[편집 | 원본 편집]
참고 문헌[편집 | 원본 편집]
- Variational Inference: A Review for Statisticians
- An Introduction to Variational Inference