[NLP] Day 33 - LDA
👨🏻‍🏫IT 활동/인공지능교육 - NLP

[NLP] Day 33 - LDA

728x90
반응형

LDA


이제는 hard clustering이 아닌 soft clustering으로 각각의 토픽들이 확률로서의 값을 가진다.

M개의 문서, 각각의 문서의 토픽 분포 θm (갯수 K) 에서 각각의 토픽내의 확률값에 따라 단어(w_1,w_2) N개 를 뽑아낸다. Z와 join해서. 그래서 W(단어)가 나오게 된다.

N : M번째 문서에서 나온 단어의 수

K개의 토픽을 고를 때, alpha가 관여하고, N개의 단어를 뽑을 때 beta가 관여함

이를 Graphical model이라고 부를 것이다.

각 단어 W에 대해서, 어떤 토픽분포에서 파생된 Z에서 왔는지를 찾는 것이 목표이다.


  • generative process


θi : Dirichlet(α)를 통해 결정. 특정 문서내에서 "토픽분포".  i=0,1,2,,M ( M: 문서의 갯수 )

φi : Dirichlet(β)를 통해 결정. 토픽내에서 단어가 나올 확률

토픽 분포는 multinomial distribution을 따른다. ( 토픽내의 단어가 여러 개여서 )

zi,l = 특정 문서(i)에서 특정 단어(l)가 나올 확률

φzi,l = φ안에 zi,l가 들어가서 토픽이 어떠한 특정 문서에서 특정 단어가 내보낼 확률이다.

wi = φzi,l 에서 나올 단어 확률이다

K-Means, LSA, LDA로 총 3 가지 방법으로 WordCloud를 그릴 수 있다.

추가 참조 : https://ratsgo.github.io/from%20frequency%20to%20semantics/2017/06/01/LDA/

728x90
반응형