728x90
반응형
LDA
이제는 hard clustering이 아닌 soft clustering으로 각각의 토픽들이 확률로서의 값을 가진다.
M개의 문서, 각각의 문서의 토픽 분포 θm (갯수 K) 에서 각각의 토픽내의 확률값에 따라 단어(w_1,w_2) N개 를 뽑아낸다. Z와 join해서. 그래서 W(단어)가 나오게 된다.
N : M번째 문서에서 나온 단어의 수
K개의 토픽을 고를 때, alpha가 관여하고, N개의 단어를 뽑을 때 beta가 관여함
이를 Graphical model이라고 부를 것이다.
각 단어 W에 대해서, 어떤 토픽분포에서 파생된 Z에서 왔는지를 찾는 것이 목표이다.
- generative process
θi : Dirichlet(α)를 통해 결정. 특정 문서내에서 "토픽분포". i=0,1,2,⋯,M ( M: 문서의 갯수 )
φi : Dirichlet(β)를 통해 결정. 토픽내에서 단어가 나올 확률
토픽 분포는 multinomial distribution을 따른다. ( 토픽내의 단어가 여러 개여서 )
zi,l = 특정 문서(i)에서 특정 단어(l)가 나올 확률
φzi,l = φ안에 zi,l가 들어가서 토픽이 어떠한 특정 문서에서 특정 단어가 내보낼 확률이다.
wi = φzi,l 에서 나올 단어 확률이다
K-Means, LSA, LDA로 총 3 가지 방법으로 WordCloud를 그릴 수 있다.
추가 참조 : https://ratsgo.github.io/from%20frequency%20to%20semantics/2017/06/01/LDA/
728x90
반응형