개발차

    [KOCW 확률통계] 05강. 확률변수의 평균과 분산

    제 05강. 확률변수의 평균과 분산 Moments of Random Variables Arithmetic average( 산술평균 )𝑋¯=𝑋1+𝑋2+⋯+𝑋𝑁𝑁 for different frequencies 𝑋¯=𝑤1𝑋1+𝑤2𝑋2+⋯+𝑤𝑁𝑋𝑁𝑤1+𝑤2+⋯+𝑤𝑁 𝑃𝐾(𝑘)=𝜆𝑘𝑘!𝑒−𝜆 이를 Poisson distribution(포아송 분포)라고 한다.𝑃𝐾(𝑘)=𝑘𝜆𝑘𝑘!𝑒−𝜆는 Taylor Series라고 하는데 이는 다음을 말한다.∑∞𝑘=0𝑓(𝑘)(0)𝑥𝑘𝑘!와 같은데, 분자의 첫 번째는 f를 k번 미분한 것을 말한다.간단한 공식으로는𝐸[𝑎𝑥+𝑏]=𝑎𝐸[𝑥]+𝑏로 나온다는 것을 알면된다. 𝐸[(𝑋−𝜇)2]=𝜎2𝑥 이는 분산과 같은데 식을 전개하면 다음과 같다.=𝐸[𝑋2]−2𝑋¯𝐸[𝑋]+𝑋¯2 𝐸[𝑋]=𝑋..

    [NLP] Day 29 - Clustering

    K-MeansEM AlgorithmUnsupervised Learning의 한 종류이다. 이제 라벨링이 필요없다.언어 쪽에서는 담화 분석에 쓰일 수 있다. ( Topic 분류 ) 먼저 latent factor K를 설정한다.K개의 임의의 latent factor로 부터 가장 가까운 포인트를 찾는다. 제대로된 centroid라는 가정이 아니기에, optimal한 쪽으로 centroid를 이동시켜준다.그리고 다시 계산하고 assign하고 maximize 한다. 이 과정을 EM과정이라고 한다. 𝐽=∑𝑁𝑛=1∑𝐾𝑘=1𝑟𝑛,𝑘||𝑥𝑛−𝜇𝑘||2 n번째가 k에 포함되는지 아닌지가 𝑟𝑛,𝑘에 들어간다.𝜇𝑘 는 cluster의 중심값, centroid가 된다.𝜇𝑘를 optimize하고 𝑟𝑛,𝑘를 변경하는 과정을 계속 ..

    [Pandas] Pandas03 - Occupation 풀이

    OccupationIntroduction:Special thanks to: https://github.com/justmarkham for sharing the dataset and materials.Step 1. Import the necessary librariesIn [1]:import pandas as pd Step 2. Import the dataset from this address.Step 3. Assign it to a variable called users.In [13]:url = 'https://raw.githubusercontent.com/justmarkham/DAT8/master/data/u.user' users = pd.read_csv(url,sep='|',index_col='use..

    [NLP] Day 28 - Project 5

    Project 5자동분류 성능평가Naive BayesIn [665]:import os def getFileList(base='./', ext='.txt'): fileList = list() for file in os.listdir(base): if file.endswith(ext): # == if file.split('.')[-1] == ext: fileList.append('{0}/{1}'.format(base, file)) return fileList In [666]:def getContent(file): with open(file, encoding='utf-8') as f: content = f.read() return content In [667]:cat = getFileList('./News')..

    [KOCW 확률통계] 04강. 이산확률변수와 연속확률변수

    제 04강. 이산확률변수와 연속확률변수 Continuous Random Value. -> 셀 수 없는 ( uncountable 한 ) 것 을 말한다.다르게 말하면 특정한 값에서 특정한 확률 값을 갖지 못한다.결국 CDF에 대한 구간에 대한 확률만을 구할 수 있다.lim∆𝑥−>0𝑃(𝑥 이를 ∆𝑥로 나누면lim∆𝑥−>0𝑃(𝑥 어디서 많이 본듯한 미분의 모양으로 바뀌게 된다.이를 정리해보면 다음과 같다.lim∆𝑥−>0𝐹𝑋(𝑥+∆𝑥)−𝐹𝑋(𝑥)∆𝑥 이를 PDF ( Probability density function ) 이라고 한다.분자는 확률, 분모는 길이이다. 즉, "단위 길이당 확률", 밀도라고 한다.그리고 다음의 식들을 만족해야 한다.(1) 𝑓𝑋(𝑥)≥0𝐹𝑋(𝑥) 는 증가하는 함수이다.𝐹′𝑋(𝑥)=𝑓𝑋(𝑥..

    [NLP] Day 27 - Evaluation

    Evaluation file:///Users/charming/Downloads/6.%20%ED%9B%88%EB%A0%A8,%20%EA%B2%80%EC%82%AC,%20%EA%B7%9C%EC%B9%99%ED%99%94[%EC%A0%95%EA%B7%9C%ED%99%94]%20(2%EA%B0%95%20%ED%8E%B8%ED%96%A5%EA%B3%BC%20%EB%B6%84%EC%82%B0).pdfError ( Bias and Variance ) 분산 줄이는 법 : 데이터를 더 모으기편향 줄이는 법 : 모델을 더 복잡하게 훈련시키기둘은 트레이드 오프 관계Accuracy :데이터의 분포나 편향에 따라 정확도가 높아지기도 한다. 이를 그냥 믿으면 안된다. ( = Overfitting 일 수도 있다는 것 )Perfor..