728x90
반응형
Sung Kim 님의 "모두의 딥러닝" 강의노트입니다
좋은 강의 감사드립니다!
https://www.youtube.com/watch?v=mQGwjrStQgg&list=PLlMkM4tgfjnLSOjrEJN31gZATbcj_MpUm&index=5
Simplified hypothesis
+b 를 제거함 H(x) = Wx
Cost looks like?
Cost(W,b)식에 x와 y를 대입하면 나온다. w의 값에 따라 cost도 변화함
Cost가 최소화되는 점을 찾는 것
이 최소점을 찾을 때 쓰이는 것 =>
Gradient descent algorithm
-> 경사를 따라 내려가는 알고리즘
주어진 cost function을 minimize할 때 자주 쓰임
가장 minimize할 수 있는 W, b 를 구할 수 있게 됨
작동 원리 )
산에서 가장 빨리 내려오는 법 -> 서있는 지점에서 돌아본 후 가장 경사가 있는 곳으로 한 발짝 감
-> 그 다음에 계속 경사가 있는 쪽으로 내려감 -> 어느 시점에는 바닥에 도착해있음
어떤 점에서나 시작할 수 있음 -> 그리고 W를 조금 바꿈 -> cost를 줄이게 됨 -> 그 때 경사 계산해서 계속 반복하는 것 => 어디서 시작하나 항상 최저점에 도달할 수 있다.
경사도는 미분을 통해 구할 수 있다.
미분하기 편하게 2를 붙임, 어차피 큰 차이가 없기 때문
알파는 Learning rate이다. 알파 곱하기 cost함수 미분한 것
위는 미분 절차
마지막 식이 바로 Gradient descent algorithm이다 이것이 Linear regression의 핵심이다!
3차원 cost function
시작점에 따라 서로 도착하는 점 W, b가 다르기 때문에 제대로 작동하지 않는다
이러한 그래프가 convex function이라고 불린다.
어디서 시작하나 한 군데로 모임 항상 Gradient가 답을 제공함
Cost function을 구성할 때 모형이 convex function 모양을 하고 있는지 봐야함!
그후 gradient descent 사용할 수 있는 것
728x90
반응형