[CS231n] 7. Training Neural Networks II

Batch Normalization을 다시 보자 최적화 문제가 NN에서 중요하다 미니 배치 안에서 데이터 loss를 계산, 그리고 Gradient의 반대 방향을 이용해서 파라미터 벡터를 업데이트 한다. 손실함수의 모양에 따라 영향을 많이 받는다. 위의 경우는 Loss는 수직 방향의 가중치 변화에 훨씬 더 민감하게 반응하는 것이다. SGD의 학습 과정을 보면 “지그재그”로 나타나게 된다. gradient의 방향이 고르지 못하기 때문이다. 가로 방향의 가중치는 느리게 변하는 반면에 수직 방향의 가중치가 빠르게 변화하면서 지그재그 모양으로 지저분하게 나타나는 것이다. ( 고차원 공간에서 더 빈번하게 발생한다 ) 불균형한 방향이 존재한다면 SGD는 잘 ..

→2019.02.27