개발차
[NLP] Day 32 - LSA
LSA ( = LSI ) https://nlp.stanford.edu/IR-book/newslides.html위 링크의 18번 ppt.2의 내용이다.SVD를 이용해서 차원을 축소한다.MxN을 MxK / K / KxN 으로 분해해서 표현한다.K의 값을 아무리 바꿔도 MxN의 형태는 유지가 된다. 그래서 이를 이용해서 K를 Topic으로 보고 K를 조정해가며 설정할 수 있다.decompose하고 다시 원형으로 바꾸면서 similarity 보다 더 나은 measure을 찾아낸다. M : 단어 / K : latent semantic / N : 문서U : row는 단어𝑉𝑇 : 각각의 문서Σ : 어떤 컨셉이 얼마나 중요한지 이러한 과정을 Latent Semantic Indexing(LSI,LSA)라고 한다.Nois..
[Pandas] Pandas04 - Student Alcohol Consumption 풀이
Student Alcohol ConsumptionIntroduction:This time you will download a dataset from the UCI.Step 1. Import the necessary librariesIn [12]:import pandas as pd import numpy as np Step 2. Import the dataset from this address.Step 3. Assign it to a variable called df.In [3]:url = 'https://raw.githubusercontent.com/guipsamora/pandas_exercises/master/04_Apply/Students_Alcohol_Consumption/student-mat.cs..
[Coursera] 2. Optimization
이번 강의에서는 Optimization, Loss function, Gradient Descent에 대한 간략한 이해를 했고, Tensorflow Playground를 이용한 다양한 실험을 통해 Batch size, learning rate, epochs가 loss curve에 어떠한 영향을 미치는지에 대해 파라미터를 조정해가며 눈으로 직접 확인을 했다. 그리고 모델을 평가하는 Confusion matrix에 대해서도 간략히 알아보았다.
[KOCW 확률통계] 09강. 정규분포
제 09강. 정규분포 Normal Distribution ( Gaussian ) Random Variable X : 연속적인 형태이다. pdf : 𝑓𝑋(𝑥)=12𝜋𝜎2𝑋√𝑒−12𝜎2𝑋(𝑥−𝜇𝑋)2 파라미터는 평균과 분산이다.𝑁(𝜇𝑋,𝜎2𝑋) 이는 평균을 기준으로 대칭적이고, 종 모양을 띄고있다.𝜎𝑋σX가 크면 분포가 넓어지고 𝜎𝑋σX가 작아지면 분포가 좁아진다. CDF : 𝐹𝑋(𝑥)=∫𝑥−∞12𝜋𝜎2𝑋√𝑒−12𝜎2𝑋(𝑡−𝜇𝑋)2𝑑𝑡 𝑢=𝑡−𝜇𝑋𝜎𝑋 라고 가정하자. ∫𝑥−𝜇𝑋𝜎𝑋−∞12𝜋√𝑒−𝑢22𝑑𝑢=Φ(𝑥−𝜇𝑋𝜎𝑋) Φ(−𝑥)=1−Φ(𝑥) Normal Approximation to Binomial Dist 𝐵(𝑛,𝑝)−>𝑁(𝑛𝑝,𝑛𝑝(1−𝑝)) 𝑃[𝑎≤𝑋≤𝑏]=𝑃[𝑎−𝑛𝑝𝑛𝑝(𝑎−𝑝)√≤𝑍≤𝑏−𝑛𝑝𝑛𝑝..
[NLP] Day 31 - 특강 CNN
CNN 특강Fully Connected Layer만 사용시 1차원 형태로 펴지기 때문에 위치정보를 잃어버리게 된다.채널 : R,G,B 채널을 다 더해서 color로 출력가능하다.Feature Map : input data에 filter 합성곱을 통해 feature map을 채운다.Padding : 출력 데이터의 사이즈가 줄어드는 것을 방지하기 위한 것이다. 사이드의 내용이 중요하면 padding을 넣지 않고 그대로 진행한다.Pooling : 원하는 size만큼의 특징을 뽑을 수 있다. 보통 2x2Keras를 이용해서 MNIST data를 분류해보겠다.MNIST with Only Fully-Connected LayerIn [120]:import keras print(keras.__version__) fro..
[Pandas] Pandas03 - Regiment 풀이
RegimentIntroduction:Special thanks to: http://chrisalbon.com/ for sharing the dataset and materials.Step 1. Import the necessary librariesIn [16]:import pandas as pd Step 2. Create the DataFrame with the following values:In [17]:raw_data = {'regiment': ['Nighthawks', 'Nighthawks', 'Nighthawks', 'Nighthawks', 'Dragoons', 'Dragoons', 'Dragoons', 'Dragoons', 'Scouts', 'Scouts', 'Scouts', 'Scouts']..