👨🏻🏫IT 활동
[NLP] Day 32 - LSA
LSA ( = LSI ) https://nlp.stanford.edu/IR-book/newslides.html위 링크의 18번 ppt.2의 내용이다.SVD를 이용해서 차원을 축소한다.MxN을 MxK / K / KxN 으로 분해해서 표현한다.K의 값을 아무리 바꿔도 MxN의 형태는 유지가 된다. 그래서 이를 이용해서 K를 Topic으로 보고 K를 조정해가며 설정할 수 있다.decompose하고 다시 원형으로 바꾸면서 similarity 보다 더 나은 measure을 찾아낸다. M : 단어 / K : latent semantic / N : 문서U : row는 단어𝑉𝑇 : 각각의 문서Σ : 어떤 컨셉이 얼마나 중요한지 이러한 과정을 Latent Semantic Indexing(LSI,LSA)라고 한다.Nois..
[Coursera] 2. Optimization
이번 강의에서는 Optimization, Loss function, Gradient Descent에 대한 간략한 이해를 했고, Tensorflow Playground를 이용한 다양한 실험을 통해 Batch size, learning rate, epochs가 loss curve에 어떠한 영향을 미치는지에 대해 파라미터를 조정해가며 눈으로 직접 확인을 했다. 그리고 모델을 평가하는 Confusion matrix에 대해서도 간략히 알아보았다.
[NLP] Day 31 - 특강 CNN
CNN 특강Fully Connected Layer만 사용시 1차원 형태로 펴지기 때문에 위치정보를 잃어버리게 된다.채널 : R,G,B 채널을 다 더해서 color로 출력가능하다.Feature Map : input data에 filter 합성곱을 통해 feature map을 채운다.Padding : 출력 데이터의 사이즈가 줄어드는 것을 방지하기 위한 것이다. 사이드의 내용이 중요하면 padding을 넣지 않고 그대로 진행한다.Pooling : 원하는 size만큼의 특징을 뽑을 수 있다. 보통 2x2Keras를 이용해서 MNIST data를 분류해보겠다.MNIST with Only Fully-Connected LayerIn [120]:import keras print(keras.__version__) fro..
[Coursera] 1. Introduction & Practical ML
앞으로 있을 강의에 대한 간략한 설명과 ML의 간략한 역사를 알아보는 강의였다. 중간중간에 퀴즈를 통해 점검할 수 있어서 좋은 것 같다. 기존에 공부했던 내용들이어서 간단하게 복습하는 기분으로 강의를 듣고 퀴즈를 풀었다.
[NLP] Day 30 - Clustering 2
Clustering 2 문서에 적용하기In [582]:documents = [ "This little kitty came to play when I was eating at a restaurant.", "Merley has the best squooshy kitten belly.", "Google Translate app is incredivle.", "If you open 100 tab in google you get a smiley face.", "Best cat photo I've ever taken.", "Climbing ninja cat.", "Impressed with google map feedback.", "Key promoter extension for Google Chrome." ] I..
[NLP] Day 29 - Clustering
K-MeansEM AlgorithmUnsupervised Learning의 한 종류이다. 이제 라벨링이 필요없다.언어 쪽에서는 담화 분석에 쓰일 수 있다. ( Topic 분류 ) 먼저 latent factor K를 설정한다.K개의 임의의 latent factor로 부터 가장 가까운 포인트를 찾는다. 제대로된 centroid라는 가정이 아니기에, optimal한 쪽으로 centroid를 이동시켜준다.그리고 다시 계산하고 assign하고 maximize 한다. 이 과정을 EM과정이라고 한다. 𝐽=∑𝑁𝑛=1∑𝐾𝑘=1𝑟𝑛,𝑘||𝑥𝑛−𝜇𝑘||2 n번째가 k에 포함되는지 아닌지가 𝑟𝑛,𝑘에 들어간다.𝜇𝑘 는 cluster의 중심값, centroid가 된다.𝜇𝑘를 optimize하고 𝑟𝑛,𝑘를 변경하는 과정을 계속 ..