1. 개요

우리의 목표는 주어진 데이터가 따르는 확률 분포인 데이터 분포(data distribution)를 잘 추정하는 것
조금 더 수학적으로 문제를 정의하면, 미지의 데이터 분포가 $P_X^{*}(x, \theta)$일 때 데이터 분포를 찾는 작업은 크게 디음처럼 요약할 수 있다.
- $P_X^{}(x, \theta)$와 같은 분포족에 속하는 확률분포 $P_X(x, \theta)$를 이용하여 $P_X^{}(x, \theta)$를 최적으로 맞추는(=best fit) 파라미터 $P_X(x, \theta^{*})$를 찾는다. 이 때, 가장 좋은 추정법은 MLE이다.
- 만약 Bayesian Approach를 사용한다면, $\theta$의 사후분포를 찾게 된다.

2. Complexity Cases

(1) $\nabla_{\theta}logP(x;\theta)$ 가 closed-form 형태로 계산되는 경우

$\nabla_{\theta}logP(x;\theta) = 0$을 만족하는 극점을 수식으로 계산할 수 있으면, 해당 지점을 찾아서 최댓값을 찾으면 된다.
하지만, 복잡한 경우에는 closed-form 형태로 계산되지 않는 경우가 많다. 특히, 잠재 변수를 도입해야 데이터 분포를 설명 가능한 경우(e.g. GMM)가 그렇다.

(2) Likelihood가 unclosed-form이지만 tractable한 경우

이 경우, reparametrization trick및 score-function gradient 등을 이용해서 $\nabla_{\theta}P(x;\theta)$ 를 수치적으로 계산한 후, gradient ascent 방식으로 파라미터를 업데이트한다.

(3) Likelihood가 unclosed-form이면서 intractable한 경우

대부분의 딥러닝 모형으로 풀려는 문제가 바로 이 경우에 속하는 케이스

3. ELBO

Variational Inference

4. EM 알고리즘

Variational Autoencoder

Expectation Maximization