순환 신경망 소개

이번 챕터에서는 기존의 방식에서 벗어난 새로운 형태의 신경망을 소개하고자 합니다. 앞서 이제까지 우리는 다음과 같은 형태의 신경망을 주로 다뤄왔습니다. 다음 그림과 같이 $\theta$ 라는 파라미터를 갖는 이 신경망은 선형 계층^{linear layer}으로 구성되어 있을 수도 있고, 합성곱 계층^{convolutional layer}으로 구성되어 있을 수도 있습니다.

\[\begin{gathered} y=f(x;\theta) \end{gathered}\]

하지만 이번 챕터에서 소개할 신경망은 순서 또는 시간의 개념이 도입됩니다. 다음 그림에서도 $x_t$ 또는 $h_t$ 라는 표현에서 $t$ 가 추가되어 순서를 표시하고 있음을 볼 수 있습니다.

\[\begin{gathered} h_t=f(x_t,h_{t-1};\theta) \end{gathered}\]

그리고 $t$ 가 끝에 다다르면 비로소 $y=h_t$ 가 되어 출력 값을 얻게 됩니다. 또한 앞의 수식에서 재미있는 점은 $h_t$ 를 얻기 위해서, $x_t$ 뿐만 아니라 $h_{t-1}$ 도 함께 함수의 입력으로 주어져야 한다는 것입니다. 즉, 이전 순서에서의 상태 결과인 $h_{t-1}$ 을 현재 입력 $x_t$ 와 함께 함수에 넣어주어 현재 상태 결과 $h_t$ 를 구하도록 되어 있습니다. 이러한 신경망의 형태를 순환 신경망^{Recurrent Neural Networks, RNN}이라고 부릅니다.

기존 형태의 신경망은 주로 테이블 데이터^{tabular data}나 이미지 데이터를 다루는데 사용되었습니다. 하지만 RNN의 경우에는 자연어처리^{natural language processing, NLP}와 같은 순서 정보가 담긴 데이터나 시계열^time-series 데이터를 다루는데 적합합니다.

어쩌면 이 책을 통해 RNN과 그 응용 구조들을 처음 접하는 분들은 이해하는데 어려움을 겪을 수도 있습니다. 하지만 자연어생성^{natural language generation}과 같이 순서 데이터를 생성하는 문제가 아니라면, 딱히 실제 구현할 때 시간 또는 순서 정보가 필요없기 때문에 크게 신경 쓸 필요가 없으므로, 크게 걱정하지 않으셔도 됩니다. 더욱이 이 책을 통해 RNN 함수의 입출력 텐서 형태만 알아도 이미 반은 해결됐다고 보시면 됩니다. 어차피 입출력 형태만 맞춰서 구현하고 데이터를 넣어주면, 딱히 RNN에 대한 이해가 없어도 잘 학습되고 추론할테니까요. 이번 챕터에서는 독자분들의 어려움을 해결하기 위해 RNN의 개념을 한 걸음씩 접근하도록 하겠습니다.