변분 추론

IT 위키
인공무능 (토론 | 기여)님의 2025년 10월 9일 (목) 12:44 판 (새 문서: 변분 추론(Variational Inference, VI)은 베이지안 추론에서 직접 계산하기 어려운 사후 확률 분포를, 최적화 기법을 활용해 해석 가능한 분포군 안에서 근사하는 방식이다. ==개념 및 기본 아이디어== *베이지안 통계 모델에서는 관측 데이터 \(x\)와 잠재 변수 \(z\)가 있을 때 사후 분포 \(p(z|x)\)를 구하는 것이 핵심 목표지만, 보통 이 분포는 적분이 불가능하거나 계산이 매우...)
(차이) ← 이전 판 | 최신판 (차이) | 다음 판 → (차이)

변분 추론(Variational Inference, VI)은 베이지안 추론에서 직접 계산하기 어려운 사후 확률 분포를, 최적화 기법을 활용해 해석 가능한 분포군 안에서 근사하는 방식이다.

개념 및 기본 아이디어

  • 베이지안 통계 모델에서는 관측 데이터 \(x\)와 잠재 변수 \(z\)가 있을 때 사후 분포 \(p(z|x)\)를 구하는 것이 핵심 목표지만, 보통 이 분포는 적분이 불가능하거나 계산이 매우 복잡하다 [1]
  • 변분 추론은 근사 분포 \(q(z)\)를 설정하고, 이 \(q\)가 진짜 사후 분포 \(p(z|x)\)과 최대한 유사하도록 KL 발산(Kullback–Leibler divergence)을 최소화하는 방식으로 접근한다 [2]
  • 이 과정을 통해 계산이 용이한 분포군(예: 정규분포 계열)을 사용하면서도 근사적 추론을 수행할 수 있다 [3]

수학적 표현

  • 증거 하한(Evidence Lower Bound, ELBO)은 다음과 같이 정의된다:

\[ \mathrm{ELBO}(q) = \mathbb{E}_{q(z)}[\log p(x, z)] - \mathbb{E}_{q(z)}[\log q(z)] \]

  • 이 ELBO는 로그 증거 \(\log p(x)\)의 하한이며, ELBO를 최대화하는 것은 KL 발산 \(D_{\mathrm{KL}}(q(z)\|p(z|x))\)을 최소화하는 것과 동치다 [4]

응용 및 특징

  • 변분 오토인코더(Variational Autoencoder, VAE) 등 딥러닝 모델에서 잠재 변수 모델 학습에 널리 사용된다
  • 근사 분포의 구조(독립성 가정 등)에 따라 근사의 품질이 크게 달라진다
  • 근사가 잘 되지 않는 경우 편향(bias)이 발생할 수 있으며, 복잡한 모델에서는 최적화를 잘 수행하는 것이 도전이다

같이 보기

참고 문헌

  • Variational Inference: A Review for Statisticians
  • An Introduction to Variational Inference