👨🏻‍🏫IT 활동/인공지능교육 - NLP

    [NLP] Day 33 - LDA

    LDA 이제는 hard clustering이 아닌 soft clustering으로 각각의 토픽들이 확률로서의 값을 가진다.M개의 문서, 각각의 문서의 토픽 분포 θm (갯수 K) 에서 각각의 토픽내의 확률값에 따라 단어(w_1,w_2) N개 를 뽑아낸다. Z와 join해서. 그래서 W(단어)가 나오게 된다.N : M번째 문서에서 나온 단어의 수K개의 토픽을 고를 때, alpha가 관여하고, N개의 단어를 뽑을 때 beta가 관여함이를 Graphical model이라고 부를 것이다.각 단어 W에 대해서, 어떤 토픽분포에서 파생된 Z에서 왔는지를 찾는 것이 목표이다. generative process θi : Dirichlet(α)를 통해 결정. 특정 문서내에서 "토픽분포". i=0,1,2,⋯,M ( M: ..

    [NLP] Day 32 - LSA

    LSA ( = LSI ) https://nlp.stanford.edu/IR-book/newslides.html위 링크의 18번 ppt.2의 내용이다.SVD를 이용해서 차원을 축소한다.MxN을 MxK / K / KxN 으로 분해해서 표현한다.K의 값을 아무리 바꿔도 MxN의 형태는 유지가 된다. 그래서 이를 이용해서 K를 Topic으로 보고 K를 조정해가며 설정할 수 있다.decompose하고 다시 원형으로 바꾸면서 similarity 보다 더 나은 measure을 찾아낸다. M : 단어 / K : latent semantic / N : 문서U : row는 단어𝑉𝑇 : 각각의 문서Σ : 어떤 컨셉이 얼마나 중요한지 이러한 과정을 Latent Semantic Indexing(LSI,LSA)라고 한다.Nois..

    [NLP] Day 31 - 특강 CNN

    CNN 특강Fully Connected Layer만 사용시 1차원 형태로 펴지기 때문에 위치정보를 잃어버리게 된다.채널 : R,G,B 채널을 다 더해서 color로 출력가능하다.Feature Map : input data에 filter 합성곱을 통해 feature map을 채운다.Padding : 출력 데이터의 사이즈가 줄어드는 것을 방지하기 위한 것이다. 사이드의 내용이 중요하면 padding을 넣지 않고 그대로 진행한다.Pooling : 원하는 size만큼의 특징을 뽑을 수 있다. 보통 2x2Keras를 이용해서 MNIST data를 분류해보겠다.MNIST with Only Fully-Connected LayerIn [120]:import keras print(keras.__version__) fro..

    [NLP] Day 30 - Clustering 2

    Clustering 2 문서에 적용하기In [582]:documents = [ "This little kitty came to play when I was eating at a restaurant.", "Merley has the best squooshy kitten belly.", "Google Translate app is incredivle.", "If you open 100 tab in google you get a smiley face.", "Best cat photo I've ever taken.", "Climbing ninja cat.", "Impressed with google map feedback.", "Key promoter extension for Google Chrome." ] I..

    [NLP] Day 29 - Clustering

    K-MeansEM AlgorithmUnsupervised Learning의 한 종류이다. 이제 라벨링이 필요없다.언어 쪽에서는 담화 분석에 쓰일 수 있다. ( Topic 분류 ) 먼저 latent factor K를 설정한다.K개의 임의의 latent factor로 부터 가장 가까운 포인트를 찾는다. 제대로된 centroid라는 가정이 아니기에, optimal한 쪽으로 centroid를 이동시켜준다.그리고 다시 계산하고 assign하고 maximize 한다. 이 과정을 EM과정이라고 한다. 𝐽=∑𝑁𝑛=1∑𝐾𝑘=1𝑟𝑛,𝑘||𝑥𝑛−𝜇𝑘||2 n번째가 k에 포함되는지 아닌지가 𝑟𝑛,𝑘에 들어간다.𝜇𝑘 는 cluster의 중심값, centroid가 된다.𝜇𝑘를 optimize하고 𝑟𝑛,𝑘를 변경하는 과정을 계속 ..