요약
- 가능도likelihood
- 가능도란 데이터 샘플들을 주어진 분포의 파라미터로 얼마나 잘 설명하는지 수치화한 것
- 로그가능도 수식
\[\begin{gathered}
\text{LogLikelihood}(\theta)=\sum_{i=1}^N{
\log{P_\theta(y_i|x_i)}
}
\end{gathered}\]
- MLEMaximum Likelihood Estimation
- 심층신경망을 확률분포함수로 해석할 수 있으며, 이에따라 MLE를 통해 모델을 학습할 수 있음
- 음의 가능도NLL 손실 함수를 통해 MLE를 수행
- NLL 손실 함수는 교차 엔트로피 손실 함수와 수식이 거의 같음
\[\begin{gathered}
\mathcal{D}=\{(x_i,y_i)\}_{i=1}^N \\
\\
\mathcal{L}(\theta)=\text{NLL}(\theta)=-\sum_{i=1}^N{
\log{P(y_i|x_i;\theta)}
} \\
\\
\hat{\theta}=\underset{\theta\in\Theta}{\text{argmin}}{
\mathcal{L}(\theta)
} \\
\\
\theta\leftarrow\theta-\eta\cdot\frac{\partial{\mathcal{L}(\theta)}}{\partial{\theta}}
\end{gathered}\]