📗강의노트

    [KOCW 확률통계] 제 12강. 조건부 평균과 공분산

    제 12강. 조건부 평균과 공분산Continuous case일 때,μY|X=E[Y|X=x]=∫∞−∞yfY|X(y|x)dy fX|Y(x|y)=fXY(x,y)fY(y) (Bayesian Theorem에 의한 것이다.) E[X|Y=y]=y=g(Y)E[g(x)]=∫g(x)fX(x)dxE[g(X,Y)]=∫∫g(x,y)fXY(x,y)dxdy 증명E[E[X|Y]]=E[∫∞−∞xfX|Y(x|y)dx]=∫∞−∞[∫∞−∞xfX|Y(x|y)dx]fY(y)dy=∫∞−∞[∫∞−∞xfX|Y(x|y)fY(y)dxdy]=∫∞−∞[∫∞−∞xfX|Y(x,y)fY(y)fY(y)dydx]=∫∞−∞xfX(x)dx=E[X]Covariance & Correlation Coefficient Cov(X,Y)=σXY=E[(X−μx)(Y−μY)]=E[..

    [KOCW 선형대수] 11강. 연합확률밀도함수와 조건부확률밀도함수

    제 11강. 연합확률밀도함수와 조건부확률밀도함수(PMF = Probability mass function, 확률 질량 함수)(1) Joint PMF ?\mathbf{F_{XY}(x,y)}\begin{cases} \frac{1}{8} ....x=1,y=1\\ \frac{5}{8} ....x=1,y=2\\ \frac{1}{4} ....x=2,y=1\\ 1 ....x=2,y=2\\ \end{cases}FXY​(x,y)⎩⎪⎪⎪⎨⎪⎪⎪⎧​81​....x=1,y=185​....x=1,y=241​....x=2,y=11....x=2,y=2​discrete한 경우, P_{XY}(x,y)PXY​(x,y)로 표현한다. 다음과 같다면P_{XY}(1,1) = \frac{1}{8}PXY​(1,1)=81​이다.Continuous한..

    [핸즈온 머신러닝] 제 11장 연습문제 풀이

    Exercise Part.11Training Deep Neural Network1. He 초기화를 사용하여 무작위로 선택한 값이라면 모든 가중치를 같은 값으로 초기화해도 괜찮을까요?¶아니다. 모든 가중치는 독립적으로 샘플링되어야 한다. 즉 같은 초깃값을 가지면 안된다. 가중치를 무작위로 샘플링하는 중요한 한 가지 목적은 대칭성을 피하기 위함이다.2. 편향을 0으로 초기화해도 괜찮을까요?아무런 상관이 없다. 편향을 가중치처럼 초기화해도 괜찮다. 그렇게 큰 차이를 만들지 않는다.3. ReLU보다 ELU 활성화 함수가 나은 세 가지는 무엇인가요?(1) 음수를 받을 수 있어서 뉴런의 평균출력이 보다 더 0에 가깝다.(2) 도함수가 항상 0이 아니다. dead ReLU현상을 피할 수 있다.(3) ReLU의 기울기..

    [핸즈온 머신러닝] 제 11장 정리

    11장. 심층 신경망 훈련Vanishing Gradient : backpropagation이 진행됨에 따라, 그레디언트가 점점 작아지는 경우(0에 가까워짐, 반대의 경우는 Gradient Exploding)Xavier initialization : 평균이 0이고 표준편차 σ=2ninputs+noutputs‾‾‾‾‾‾‾‾‾‾√ELU : ELUα(z)=α(exp(z)−1) if z가 0보다 작을 때 / ELUα(z)=z if z가 0보다 크거나 같을 때z가 0이하여도 그레디언트가 0이 아니라 죽은 뉴런을 만들지 않는다. 하지만 ReLU보다 계산할 때와 테스트 시에 느리다.Batch Normalization : Gradient Vanishing & Exploding을 해결하기 위해 나왔다...

    [KOCW 확률통계] 10강. 다중변수 및 연합분포

    제 10강. 다중변수 및 연합분포1. Joint CDF of Bivariate R.Vjoint CDF : 𝑃[𝑋≤𝑥,𝑌≤𝑦]=𝐹𝑥𝑦(𝑥,𝑦) marginal CDF : 𝐹𝑥(𝑥),𝐹𝑌(𝑦) 1-1. Properties of joint CDF(1) 0≤𝐹𝑋𝑌(𝑥,𝑦)≤1 (2) if 𝑥1≤𝑥2 and 𝑦1≤𝑦2 하나를 고정해도 값은 커진다. 𝐹𝑋𝑌(𝑥1,𝑦1)≤𝐹𝑋𝑌(𝑥2,𝑦1)≤𝐹𝑋𝑌(𝑥2,𝑦2) 𝐹𝑋𝑌(𝑥1,𝑦1)≤𝐹𝑋𝑌(𝑥1,𝑦2)≤𝐹𝑋𝑌(𝑥2,𝑦2) (3) lim𝑥,𝑦−>∞𝐹𝑋𝑌(𝑥,𝑦)=𝐹𝑋𝑌(∞,−∞)=1 (4) lim𝑥−>∞𝐹𝑋𝑌(𝑥,𝑦)=𝐹𝑋𝑌(∞,𝑦)=0 lim𝑦−>∞𝐹𝑋𝑌(𝑥,𝑦)=𝐹𝑋𝑌(𝑥,−∞)=0 (5) lim𝑥−>𝑎+𝐹𝑋𝑌(𝑥,𝑦)=𝐹𝑋𝑌(𝑎,𝑦) lim𝑥−>𝑏+𝐹𝑋𝑌(𝑥,𝑦)=𝐹..

    [핸즈온 머신러닝] 제 10장 연습문제 풀이

    Exercise Part. 10Neural_Network 1. 초창기 인공 뉴런을 사용해 A+B(+는 XOR연산)를 계산하는 인공신경망을 그려보세요.EC DA B처럼 아래서 위로 네트워크가 진행된다고 했을 때,(not A) and B = DA and (not B) = CC or D = E ( A + B (XOR) )2. 고전적인 퍼셉트론보다 로지스틱 회귀 분류기가 일반적으로 선호되는 이유는 무엇인가요? 퍼셉트론을 어떻게 수정하면 로지스틱 회귀 분류기와 동등하게 만들 수 있나요?고전적인 퍼셉트론은 선형적으로 구분될 때만 수렴하고 확률을 추정할 수 없다. 하지만 로지스틱은 선형적으로 구분되지 못해도 클래스 확률을 잘 출력할 수 있다. Activation은 softmax로 바꾸고, 경사 하강법을 사용하여 훈련..