개발차
[KOCW 확률통계] 03강. 확률변수의 정의
제 03. 확률변수의 정의 랜덤한 실험을 통해 나온 결과를 실수값(real value)에 mapping한 것을 R.V(확률변수)라고 한다.관습 상, 확률변수는 대문자로 / 실수 값은 소문자로 표기한다. Probability assignment𝑃(𝑋≤𝑥)=𝑃({𝑤|𝑋(𝑤)≤𝑥}) 𝑃(𝑋>𝑥)=1−𝑃(𝑋≤𝑥) 위는 기본적이면서도 유용하게 쓰이는 법칙이다.Distribution FunctionsCumulative Distribution Function ( CDF, 누적확률분포 ) 𝐹𝑋(𝑥)=𝑃[𝑋≤𝑥]=𝑃({𝑤|𝑋(𝑤)≥𝑥}) (1) if 𝑥1𝐹(𝑥1)≤𝐹(𝑥2) (2) 0≤𝐹𝑋(𝑥)≤1 (3) 𝐹𝑋(∞)=1 (4) 𝐹𝑋(−∞)=0 (5) 𝑃[𝑎𝑃[𝑋>𝑎]=1−𝐹𝑋(𝑎) Discrete Random Varia..
[NLP] Day 25 - Project 4
Projcet 4¶스팸 자동 분류스팸 / 햄 데이터 수집 ( 제목 )글자가 깨지면import htmlhtml.parser.unescape(문자열)In [1]:from selenium import webdriver driver = webdriver.Chrome(executable_path='/Users/charming/Python/3. Koipa AI Learning/NLP/chromedriver') driver.get('https://nid.naver.com/nidlogin.login?mode=form') In [2]:driver.get('https://mail.naver.com/?n=1552462013012&v=f#%7B%22fClass%22%3A%22list%22%2C%22oParameter%22%3..
[NLP] Day 24 - Naive bayes
Naive BayesMLE : 데이터만 가지고 ( 반드시 데이터가 있어야 추정 가능, 없으면 동작 X )MAP : 데이터와 사전 정보를 가지고 ( 데이터가 없어도 사전 정보를 가지고 알아낼 수 있음 ) 조금 더 Optimal하다.Naive assumption : 입력데이터끼리 conditional independence 하다고 가정한다. ( 실생활에서느 그렇지 않지만 계산을 위해 )Ex) 대출, 광고 모두 스팸이라면 둘 사이는 원래 강한 상관관계가 존재한다.Combination을 아래와 같이 구할 수 있는 것이다.( 특정 정보가 주어졌을 때, (사전 정보= 스팸이라고 알려줬을 때, 대출과 광고는 독립이다.) ) 𝑃(𝑥1|𝑥2,𝑦)=𝑃(𝑥1|𝑦) 로 볼 수 있는 것이다.따라서 𝑃(𝑥1|𝑥2,𝑦)=𝑃(𝑥1|..
[KOCW 확률통계] 02강. 독립사건과 확률
제 02강. 독립사건과 확률 독립사건이란 말 그대로 서로가 영향을 미치지 않는 독자적인 존재라는 것이다.따라서 다음 식이 성립하게 되는 것이다.𝑃(𝐴|𝐵)=𝑃(𝐴)& 𝑃(𝐵|𝐴)=𝑃(𝐵) 𝑃(𝐴∩𝐵)=𝑃(𝐴)𝑃(𝐵) Combinatorial Analysisline arrangement(순서 고려) of n different objects Permutation ( 순열 )𝑛𝑃𝑟=𝑛!𝑛!(𝑛−𝑟)! => 𝑟 out if 𝑛 objects 0!=1 나열하지 않는다는 것이다.중복되는 것을 나열할 때는 다음과 같이 구할 수 있다.𝑁𝑘=𝑛!𝑛1!𝑛2!⋯𝑛𝑘! Combiantions𝑛𝐶𝑟=(𝑛𝑟)=𝑛𝑃𝑟𝑟!=𝑛!(𝑛−𝑟)!𝑟!=𝑛𝐶𝑛−𝑟 이항일 때,(𝑛+𝑚𝑘)=∑𝑘𝑖=0(𝑛𝑖)(𝑚𝑘−𝑖) 위의 식으로 일반화하여 나타..
[NLP] Day 23 - Project 3
Project 3뉴스 자동 분류처음은 이전 Project 2와 동일하다 print문은 결과가 너무 길어서 없앴다. In [2]:import os def getFileList(base='./', ext='.txt'): fileList = list() for file in os.listdir(base): if file.endswith(ext): # == if file.split('.')[-1] == ext: fileList.append('{0}/{1}'.format(base, file)) return fileList In [3]:# def getNewsRank(): # for file in os.listdir(base): # with open(file,encoding='utf-8') as f: # conte..