[CS231n] 10. Recurrent Neural Networks

728x90

Train game 해보기.

(1) One to many

단일 입력이지만 출력은 caption같은 가변 출력이다 ( image captioning )

(2) many to One

입력이 가변 입력이다. 감정 분류에 쓰인다. 비디오를 읽을 때도 사용된다. (문장) ( Sentiment Classification )

(3) many to many

입/출력 가변 (Machine Translation )

번역된 길이는 다를 것이다.

(4) many to many

비디오 처럼 가변 입력이고 프레임마다 출력값이 나와야 하는 상황

( Video classification on frame level )

RNN 으로 input x가 들어감. RNN에는 ‘hidden state’가 있는데 이는 새로운 입력을 불러들일 때마다 매번 업데이트된다. 모델에 다시 피드백되고 이후에 다시 새로운 입력 x가 들어온다.

이전 단계의 state + input x를 입력으로 받는 F(w)는 또 다시 새로운 state를 만든다.

Whh는 이전 state와 곱해지는 값이다.

그리고 non-linearity를 구현하기 위해 tanh를 적용한다.

Hidden state인 h_t를 새로운 가중치 행렬 Why와 곱해준다. ( 출력을 얻기 위해서 )

다른 그림을 통해 이해를 해보자.

Initial hidden state인 h0이 존재한다. 보통 0으로 초기화 시켜준다. 그리고 h0과 x1이 fw의 입력으로 들어가게 된다.

이 과정이 반복되는 것이다.

W를 추가한 것이다. 여기서 주목할 점은 매번 동일한 W가 입력되는 것이다.

Gradient를 구하려면 각 스텝에서 W에 대한 그레디언트를 전부 계산한 뒤에 이 값들을 모두 더하면 된다.

ht가 다른 네트워크의 입력으로 들어가서 y_t를 만들어 낼 수도 있다. ( class score )

각 스텝마다 개별적으로 y_t에 대한 Loss를 계산할 수 있다. 각 Loss의 값의 총합이 전체 Loss이다.

Many to one ( 감정분석 ) 같은 경우는 최종 hidden state에서만 결과 값이 나올 것이다.

One to many 의 모델이다. 대개 고정 입력은 모델의 initial hidden state를 초기화시키는 용도로 사용한다.

Sequence to sequence 모형( many to one + one to many )이다.

encoder와 decoder로 나눠서 볼 수 있다. encoder는 가변입력을 받는다. 예를 들어 영어 문장이 될 수 있다.

Encoder의 final hidden state를 통해 전체 sentence를 요약한다.

Decoder에서는 one to many 형태로 볼 수 있다.

입력은 하나의 벡터가 된다. decoder는 가변 출력을 내뱉는다. 다른 언어로 번역된 문장이 될 수 있다.

가변 출력은 매 스텝 적절한 단어를 내뱉는다.

문자열을 입력으로 받고 다음으로 올 문자열을 예측해야한다.

문자를 One-hot encoding으로 표현한다.

‘h’가 들어가면 output ‘e’를 예측한다.

확률이 아주 낮지만 e가 예측이 되어 다음 입력으로 들어간다. 매 타임 스텝마다 확률 분포에서 샘플링하여문자를 하나씩 뽑아낸다.

truncated backpropagation을 이용한다. 입력 시퀀스가 엄청 길어도 train time에 한 스텝을 일정 단위로 자른다. 일부 스텝마 forward pass를 하고 이 서브 시퀀스의 Loss를 계산한다. 그리고 gradient step을 진행하는 것이다.

이 과정을 반복하는 것이다. 이전 batch에서 계산한 hidden state는 계속 유지한다.

Gradient step(backprop)은 현재 batch에서만 진행

CNN은 요약된 이미지정보가 들어있는 Vector를 출력한다. 이 Vector는 RNN의 초기 Step의 입력으로 들어간다.

image를 입력으로 넣고 , 마지막에 FC를 softmax하지 않고 4096 dim vector 그대로 출

력한다.

하나는 현재 스텝의 입력이고 + 하나는 이전 스텝의 Hidden state였다. 이 둘을 조합하여 다음 hidden state를 얻었다.

모델에 이미지 정보를 추가하는 방법 중 쉬운 것으로는 세 번째 가중치 행렬을 추가하는 것이다.

문자열의 경우 sampling을 통해 다음 입력을 정한다. End token이 샘플링되면 모델은 더이상 단어를 생성하지 않으며 이미지에 대한 caption이 완성된다.

이 모델은 완전한 Supervised learning 으로 학습시킨다. 따라서 이 모델을 학습시키기 위해서는 natural language caption이 있는 이미지를 가지고 있어야 한다.

Microsoft COCO dataset

Train data와 유사한 이미지를 던져주면 꽤 잘 동작한다.

더 발전된 것인 “Attention”이라는 것이 있다. 이 모델은 caption을 생성할 때 이미지의 다양한 부분을 집중해서 볼 수 있다.

CNN으로 벡터 하나를 만드는게 아니라 각 벡터가 공간정보를 가지고 있는 grid of vector를 만들어 낸다 (LXD)

이미지의 각 위치에 대한 분포는 Train time에 모델이 어느 위치를 봐야하는지에 대한 attention이라 할 수 있다.

위와 같은 과정이 계속 반복된다.

H0이 이미지의 위치에 대한 분포를 계산하고, 이 분포를 다시 벡터집합(LXD)와 연산하여 이미지 attention (z1)을 생성한다. 이 요약된 벡터는 다름 입력으로 들어간다. 결과로는 vocabulary의 각 단어들의 분포(d1), 그리고 다른 하나 (a2)는 이미지 위치에 대한 분포이다.