Link

요약

  • 가능도likelihood
    • 가능도란 데이터 샘플들을 주어진 분포의 파라미터로 얼마나 잘 설명하는지 수치화한 것
    • 로그가능도 수식
\[\begin{gathered} \text{LogLikelihood}(\theta)=\sum_{i=1}^N{ \log{P_\theta(y_i|x_i)} } \end{gathered}\]
  • MLEMaximum Likelihood Estimation
    • 심층신경망을 확률분포함수로 해석할 수 있으며, 이에따라 MLE를 통해 모델을 학습할 수 있음
    • 음의 가능도NLL 손실 함수를 통해 MLE를 수행
    • NLL 손실 함수는 교차 엔트로피 손실 함수와 수식이 거의 같음
\[\begin{gathered} \mathcal{D}=\{(x_i,y_i)\}_{i=1}^N \\ \\ \mathcal{L}(\theta)=\text{NLL}(\theta)=-\sum_{i=1}^N{ \log{P(y_i|x_i;\theta)} } \\ \\ \hat{\theta}=\underset{\theta\in\Theta}{\text{argmin}}{ \mathcal{L}(\theta) } \\ \\ \theta\leftarrow\theta-\eta\cdot\frac{\partial{\mathcal{L}(\theta)}}{\partial{\theta}} \end{gathered}\]