728x90

LDA

이제는 hard clustering이 아닌 soft clustering으로 각각의 토픽들이 확률로서의 값을 가진다.

M개의 문서, 각각의 문서의 토픽 분포 (갯수 K) 에서 각각의 토픽내의 확률값에 따라 단어(w_1,w_2) N개 를 뽑아낸다. Z와 join해서. 그래서 W(단어)가 나오게 된다.

N : M번째 문서에서 나온 단어의 수

K개의 토픽을 고를 때, alpha가 관여하고, N개의 단어를 뽑을 때 beta가 관여함

이를 Graphical model이라고 부를 것이다.

각 단어 W에 대해서, 어떤 토픽분포에서 파생된 Z에서 왔는지를 찾는 것이 목표이다.

: 를 통해 결정. 특정 문서내에서 "토픽분포". ( M: 문서의 갯수 )

: 를 통해 결정. 토픽내에서 단어가 나올 확률

토픽 분포는 multinomial distribution을 따른다. ( 토픽내의 단어가 여러 개여서 )

= 특정 문서(i)에서 특정 단어(l)가 나올 확률

= 안에 가 들어가서 토픽이 어떠한 특정 문서에서 특정 단어가 내보낼 확률이다.

= 에서 나올 단어 확률이다

K-Means, LSA, LDA로 총 3 가지 방법으로 WordCloud를 그릴 수 있다.

728x90

[NLP] Day 33 - LDA