개발차

    [CS231n] 7. Training Neural Networks II

    Batch Normalization을 다시 보자 최적화 문제가 NN에서 중요하다 미니 배치 안에서 데이터 loss를 계산, 그리고 Gradient의 반대 방향을 이용해서 파라미터 벡터를 업데이트 한다. 손실함수의 모양에 따라 영향을 많이 받는다. 위의 경우는 Loss는 수직 방향의 가중치 변화에 훨씬 더 민감하게 반응하는 것이다. SGD의 학습 과정을 보면 “지그재그”로 나타나게 된다. gradient의 방향이 고르지 못하기 때문이다. 가로 방향의 가중치는 느리게 변하는 반면에 수직 방향의 가중치가 빠르게 변화하면서 지그재그 모양으로 지저분하게 나타나는 것이다. ( 고차원 공간에서 더 빈번하게 발생한다 ) 불균형한 방향이 존재한다면 SGD는 잘 ..

    [KOCW 선형대수] 10강. 벡터의 직교성과 직선투영

    제10강. 벡터의 직교성과 직선투영Orthogonality ( 직교성 )Orthogonal vectors and subspacesorthogonality -> independent basis, easy calculationcoordinate axes are orthogonalthe fundamental subspaces meet at right angleslength of vector : ||x||2=∑ni=1x2i=xTxfor a right angle 사선을 ||x||2+||y||2=||x−y||2으로 표현할 수 있다.위 식을 풀어보면 다음과 같다xTx+yTy=(x−y)T(x−y)=xTx−yTx−xTy+yTyxTy=yTx=0=> xTy ( 결국 내적이다 )xTy=0은 "수직"이라는 것을 말한다. ( 벡..

    [CS231n] 6. Training Neural Networks I

    http://cs231n.stanford.edu/2017/handouts/derivatives.pdf : 미분 http://yann.lecun.com/exdb/publis/pdf/lecun-98b.pdf : Backprop 읽어보기 1. Activation Functions 데이터 입력이 들어오면 가중치와 곱한다. FC or CNN 그리고 활성함수, 비선형 연산을 거치게 된다 . 문제점 1. Saturation되는게 gradient를 없앤다. X=-10이면 Gradient가 0이 됨 X=0에서는 잘 동작함 X=10이면 sigmoid가 flat하기 때문에 gradient를 다 죽인다. 문제점 2. sigmoid의 출력이 zero centered하지 않다는 것이다. X가 모두 양수라고 하자. 가중치와 곱해지..

    [KOCW 선형대수] 9강. 선형변환과 행렬

    제 9강. 선형변환과 행렬Linear TransformationsAx=bb is a linear combination of column vectors of A with coefficient in xx is transformed(mapped) into b by AStretching ( Extending or Contracting )A=[C00C]90 degree rotationA=[0−1−10]Reflection by x2=x1 ( y=x대칭)A=[0110]Projection into x ( 수선의 발 )A=[1000]Am×n 일 떼, ℝn->ℝm으로 만드는 과정이다. ( Transform )Ex) differentiation ddt of polynomial ( 다항식 )x(t)=a0+a1t+a2t2+⋯+..

    [CS231n] 5. Convolutional Neural Networks

    Fully Connected Layer : 어떤 벡터를 가지고 연산을 하는 것 activation은 이 layer의 출력이다. 기존의 FC Layer가 입력 이미지를 길게 쭉 폈다면 이제는 기존의 이미지 구조를 그대로 유지하게 된다. 그리고 작은 필터가 우리가 가진 가중치가 되는 것이다. 필터를 가지고 이미지 슬라이딩을 하면서 공간적으로 내적을 수행하게 된다, 깊이(3)는 전체 깊이를 전부 취하지만, 32x32중 5x5만을 취한다. 필터의 각 W와 이에 해당하는 이미지의 픽셀을 곱해준다. (각 원소끼리 Convolution을 하는 거나, 그것을 쭉 펴서 내적을 하는거나 똑같은 일을 하는 것이다.) 필터의 모든 요소를 가지고 내적을 수행하게 되면 하나의 값을 얻게된다. conv연산을 수행하는 값들을 다시 ..

    [KOCW 선형대수] 8강. 벡터공간의 차원과 4가지 부벡터공간

    제 8강. 벡터공간의 차원과 4가지 부벡터공간If, given linearly vectors -> linear combination => unique ( 조합은 딱 1가지이다 )basis is a maximal independent set / minimal spanning set4 Fundamental subspaces in AHow to find an explicit basis -> a systematic procedure(1) Column spaceℂ(A) -> linear combination of column vectors ⊂ℝm(2) Null space : N(A), {x|Ax=0} ⊂ℝn(3) Row space : ℂ(AT) => linear combination of row vectors ⊂..