MSE 손실 함수와 MLE
사실 지금까지 내용을 따라온 독자들이라면 딥러닝의 분류 문제에 대해서만 성립하는 이야기가 아닐까 하고 의문을 품었을 수도 있습니다. 앞서 이전의 챕터에서 이야기하였듯이, 분류 문제에서는 교차 엔트로피cross entropy 손실 함수를 통해 학습을 진행하고, 회귀regression 문제에서는 MSE 손실함수를 통해 심층신경망을 학습시키기 때문입니다. 따라서 MLE를 비롯한 로그 가능도log-likelihood 이야기는 분류문제에만 해당되는 것은 아닐까 하고 의문을 가질 수 있을 것입니다. 하지만 MSE 손실 함수의 경우에도 여전히 같은 범위의 원리에서 동작하고 있음을 보여줄 수 있습니다.
다음의 수식은 가우시안Gaussian 분포의 확률 밀도 함수probability density function, PDF입니다. 여기에 우리는 로그와 음수를 취해볼 수 있습니다.
\[\begin{gathered} p(x;\mu,\sigma)=\frac{1}{\sigma\sqrt{2\pi}}e^{-\frac{1}{2}\big(\frac{x-\mu}{\sigma}\big)^2} \\ \\ \log{p(x;\mu,\sigma)}=-\log{\sigma\sqrt{2\pi}}-\frac{1}{2}\big(\frac{x-\mu}{\sigma}\big)^2 \\ \\ -\log{p(x;\mu,\sigma)}=\log{\sigma\sqrt{2\pi}}+\frac{1}{2}\big(\frac{x-\mu}{\sigma}\big)^2 \end{gathered}\]이때 심층신경망 모델의 출력이 가우시안 분포라고 가정하고, 좀 더 정확하게는 가우시안 분포의 평균 $\mu$ 와 표준편차 $\sigma$ 를 반환한다고 생각해볼 수 있습니다. 조금 상상하기 어려울 수 있지만, 앞서 분류 문제에서 심층신경망은 소프트맥스 함수를 통해 이산 확률 분포discrete probability distribution를 반환한 것과 마찬가지 입니다. 확률 분포의 파라미터를 가지고 있으면 확률 분포를 그대로 만들어낼 수 있기 때문입니다. 그러므로 우리에게는 각각의 파라미터가 $\phi, \psi$ 인 두 개의 심층신경망이 있고, 각 신경망은 $\mu$ 와 $\sigma$ 를 반환하여 가우시안 분포를 반환하고 있다고 생각할 수 있습니다. 그럼 음의 로그 가능도negative log-likelihood, NLL는 다음과 같이 계산할 수 있을 것입니다.
\[\begin{gathered} -\log{p(y_i|x_i;\phi,\psi)}=\log{\sigma_\psi(x_i)\sqrt{2\pi}}+\frac{1}{2}\big(\frac{y_i-\mu_\phi(x_i)}{\sigma_\psi(x_i)}\big)^2, \\ \text{where }\theta=\{\phi,\psi\}. \end{gathered}\]그럼 우리는 NLL을 최소화 하는 방향으로 파라미터를 업데이트 해야 하므로, 경사하강법gradient descent을 수행하기 위해서 NLL 함수를 가중치 파라미터로 미분해야 합니다. 그럼 파라미터 $\phi$ 로 미분하였을 때, 수식 전개는 다음과 같습니다.
\[\begin{aligned} -\nabla_\phi\log{p(y_i|x_i;\phi,\psi)}&=\nabla_\phi\log{\sigma_\psi(x_i)\sqrt{2\pi}}+\nabla_\phi\frac{1}{2}\big(\frac{y_i-\mu_\phi(x_i)}{\sigma_\psi(x_i)}\big)^2 \\ &=\frac{1}{2\cdot\sigma_\psi(x_i)^2}\nabla_\phi\big(y_i-\mu_\phi(x_i)\big)^2 \\ &=\alpha\cdot\nabla_\phi\big(y_i-\mu_\phi(x_i)\big)^2\text{, where }\alpha=\frac{1}{2\cdot\sigma_\psi(x_i)^2}. \end{aligned}\]결과적으로 이런 저런 상수를 제외하고 나면 MSE 손실 함수를 미분하는 것과 같은 형태임을 알 수 있습니다. 즉, 회귀 문제에서 신경망은 가우시안 분포의 평균을 출력하고 있다고 생각한다면, 여전히 분류 문제와 같은 원리 내에서 동작하고 있음을 알 수 있습니다.