📗강의노트

    [KOCW 확률통계] 04강. 이산확률변수와 연속확률변수

    제 04강. 이산확률변수와 연속확률변수 Continuous Random Value. -> 셀 수 없는 ( uncountable 한 ) 것 을 말한다.다르게 말하면 특정한 값에서 특정한 확률 값을 갖지 못한다.결국 CDF에 대한 구간에 대한 확률만을 구할 수 있다.lim∆𝑥−>0𝑃(𝑥 이를 ∆𝑥로 나누면lim∆𝑥−>0𝑃(𝑥 어디서 많이 본듯한 미분의 모양으로 바뀌게 된다.이를 정리해보면 다음과 같다.lim∆𝑥−>0𝐹𝑋(𝑥+∆𝑥)−𝐹𝑋(𝑥)∆𝑥 이를 PDF ( Probability density function ) 이라고 한다.분자는 확률, 분모는 길이이다. 즉, "단위 길이당 확률", 밀도라고 한다.그리고 다음의 식들을 만족해야 한다.(1) 𝑓𝑋(𝑥)≥0𝐹𝑋(𝑥) 는 증가하는 함수이다.𝐹′𝑋(𝑥)=𝑓𝑋(𝑥..

    [KOCW 확률통계] 03강. 확률변수의 정의

    제 03. 확률변수의 정의 랜덤한 실험을 통해 나온 결과를 실수값(real value)에 mapping한 것을 R.V(확률변수)라고 한다.관습 상, 확률변수는 대문자로 / 실수 값은 소문자로 표기한다. Probability assignment𝑃(𝑋≤𝑥)=𝑃({𝑤|𝑋(𝑤)≤𝑥}) 𝑃(𝑋>𝑥)=1−𝑃(𝑋≤𝑥) 위는 기본적이면서도 유용하게 쓰이는 법칙이다.Distribution FunctionsCumulative Distribution Function ( CDF, 누적확률분포 ) 𝐹𝑋(𝑥)=𝑃[𝑋≤𝑥]=𝑃({𝑤|𝑋(𝑤)≥𝑥}) (1) if 𝑥1𝐹(𝑥1)≤𝐹(𝑥2) (2) 0≤𝐹𝑋(𝑥)≤1 (3) 𝐹𝑋(∞)=1 (4) 𝐹𝑋(−∞)=0 (5) 𝑃[𝑎𝑃[𝑋>𝑎]=1−𝐹𝑋(𝑎) Discrete Random Varia..

    [KOCW 확률통계] 02강. 독립사건과 확률

    제 02강. 독립사건과 확률 독립사건이란 말 그대로 서로가 영향을 미치지 않는 독자적인 존재라는 것이다.따라서 다음 식이 성립하게 되는 것이다.𝑃(𝐴|𝐵)=𝑃(𝐴)& 𝑃(𝐵|𝐴)=𝑃(𝐵) 𝑃(𝐴∩𝐵)=𝑃(𝐴)𝑃(𝐵) Combinatorial Analysisline arrangement(순서 고려) of n different objects Permutation ( 순열 )𝑛𝑃𝑟=𝑛!𝑛!(𝑛−𝑟)! => 𝑟 out if 𝑛 objects 0!=1 나열하지 않는다는 것이다.중복되는 것을 나열할 때는 다음과 같이 구할 수 있다.𝑁𝑘=𝑛!𝑛1!𝑛2!⋯𝑛𝑘! Combiantions𝑛𝐶𝑟=(𝑛𝑟)=𝑛𝑃𝑟𝑟!=𝑛!(𝑛−𝑟)!𝑟!=𝑛𝐶𝑛−𝑟 이항일 때,(𝑛+𝑚𝑘)=∑𝑘𝑖=0(𝑛𝑖)(𝑚𝑘−𝑖) 위의 식으로 일반화하여 나타..

    [KOCW 확률통계] 01강. 조건부확률과 Bayes 정리

    제 01강. 조건부확률과 Bayes 정리 기본적인 확률과 통계에 대한 지식을 짚어보고 시작해보자.(1) Sample Space -> S(set) (2) Event(A) : 𝐴⊂𝑆 𝑃(𝐴) : A가 발생할 확률을 말한다. (3) Conditional Probabilities 베이지안, 조건부 확률이다.𝑃(𝐵|𝐴)=𝑃(𝐵∩𝐴)𝑃(𝐴)=𝑃((𝐵∩𝐴)|𝑆)𝑃(𝐴|𝑆) A가 조건으로 있을 때, B가 발생할 확률을 말한다.S는 subspace라 굳이 표기하지 않고 중간 과정만 사용한다. (4) Total Probability 𝑃(𝐴)=𝑃(𝐴1)+𝑃(𝐴2)+⋯+𝑃(𝐴𝑛) : 서로 겹치지 않는 "배반사건"들의 합이다.{𝐴1,𝐴2,⋯,𝐴𝑛} : partition of "A" 𝑃(𝐴1)=𝑃(𝐴1∩𝐴)=𝑃(𝐴|𝐴1)𝑃(𝐴1..

    [핸즈온 머신러닝] 제 8장 연습문제 풀이

    Exercise Part. 8Dimensionality_reduction1. 데이터셋의 차원을 축소하는 주요 목적은 무엇인가요? 대표적인 단점은 무엇인가요?주 목적 : 알고리즘 속도 향상, 데이터 시각화를 통한 통찰, 메모리 공간 절약단점 : 정보 손실로 인한 알고리즘 성능 저하, 계산 비용 높음, 파이프라인 복잡도 증가, 변환된 데이터 이해 어려움2. 차원의 저주란 무엇인가요?저차원 공간에서는 없는 문제가 고차원에서는 발생한다는 것. 무작위로 선택한 고차원 벡터는 매우 희소해서 과대적합의 위험이 크다. 많은 양의 데이터를 필요로한다.3. 데이터셋의 차원을 축소시키고 나서 이 작업을 원복할 수 있나요? 할 수 있다면 어떻게 가능할까요? 가능하지 않다면 왜일까요?완벽하게 되돌리는 것은 불가능. 재구성정도는..

    [핸즈온 머신러닝] 제 8장 정리

    Part 8. dimensionality_reductionKeyword차원 축소 :차원 축소는 훈련 속도를 높이는 것, 데이터 시각화에도 아주 유용하다.하지만 차원을 축소시키면 일부 정보가 유실된다.투영 ( Projection ) :데이터는 고차원 공간 안의 저차원 부분 공간에 놓여있다. 투영 말 그대로 훈련 샘플을 부분 공간에 수직으로 투영하면 2D 데이터 셋을 얻을 수 있다.매니폴드 ( manifold ) :2D 매니폴드는 고차원 공간에서 휘어지거나 뒤틀린 모양이다.많은 차원 축소 알고리즘이 훈련 샘플이 놓여 있는 매니폴드를 모델링하는 식으로 작동하는 것이 매니폴드 학습이다.모델을 훈련시키기 전에 훈련 세트의 차원을 감소시키면 훈련 속도는 빨라지지만 항상 더 낫거나 간단한 솔루션이 되는 것은 아니다...