NLP 마무리
음절, 어절, 문장, 문단 및 담화의 차이점에 대하여 설명하시오 *
음절이란, 소리가 나는 최소한의 단위로 낱글자 하나이고, 어절은 띄어쓰기의 단위로 구분이 되고, 어절이 모여서 문장이 되는 것이고, 문장들이 모여서 문단이 생기게 된다. 그리고 문단들의 의미가 생기면서 의미를 담고 있는 담화가 만들어지게 된다.
토큰화(Tokenization)에 대하여 설명하시오 *
전처리에서 필요한 과정이다. 대문자,소문자, 기호를 제거하려고 실행한다. 구두점도 분리하는등 정제하는 데 필요하다. 의미를 가지는 최소한의 단위를 얻기 위함이다.
지프(Zipf)의 법칙과 힙스(Heaps)의 법칙에 대하여 설명하시오 *
자기 순위와 빈도를 역순으로 가져가는데 고빈도 / 저빈도로 나뉜다. 너무 잘나오거나 너무 희귀한 단어들을 잘라내는데 도움을 주는 것이 지프의 법칙이다. 힙스는 문서에 따라 유니크한 단어의 수가 늘어나는것을 유추하기 위함이다.
DOM 과 XPath, CSS Selector에 대하여 설명하시오 *
DOM은 html tree형태로 나타내는 것이다. 찾고싶은 정보를 고르기 위해 Xpath로 분석하기도 하고 Selector를 통해서 골라내기도 했다. (CSS DOM). 찾고 싶은 element를 찾기위해 실행한 것들이다.
Static과 Dynamic HTML의 차이에 대하여 설명하시오 *
static은 고정되어 있어서 request로 얻어낼 수 있다. 일반적인 방법으로 다 수집가능하다. DHTML으로 데이터 부분만 가져오고 그 부분만 스위칭 시킨다. 그래서 Selenium을 사용했었다.
정규표현식 또는 BeautifulSoup을 통한 DOM 분석과 텍스트 데이터 추출 여부 *
정규표현식은 텍스트의 패턴을 찾는 것이고 BeautifulSoup은 DOM tree에서 찾는 것이다.
데이터검색과 정보검색(Information Retrieval)을 비교하여 설명하시오 *
데이터 검색은 DB기반으로 검색(Boolean)을 도와주는 것이고, 정보 검색은 similarity를 통해 분류하는 과정을 거친다. 데이터검색은 쿼리를 전문적인 statement로 잘 정의 할 필요가 있다. 정보검색은 weight를 통해서 검색을 도와준다. 단어들의 패턴을 벡터로 표현했기에 방향성이 중요했다.
단어 또는 문서의 벡터표현 방식에 있어서 분산표현과 응집표현에 대하여 설명하시오 *
단어들을 onehot으로 하면 각각의 차원에 대해 orthogonal하기에 서로 관련이 없다고 나온다. 하지만 차원축소를 통한 중요도로 표현(분산표현)을 하면 단어들 사이의 관계를 축소된 차원에서의 중요도로 볼 수 있다. 유사성을 말하는데 다양한 종류의 유사성을 얻어낼 수 있다.
분류(Classification) 방법에 대하여 설명하고, 자연어 처리에 어떻게 응용될 수 있는지 설명하시오 *
KNN,Naive bayes. naive bayes가 기존 데이터에 대해서는 좋았지만 KNN이 새로운 인풋에 대해 더 좋은 성능을 보였다. instance based model이기 때문이다. 너무 biased되어있으면 미래의 데이터에 대해서 제대로 추측을 할 수 없었다.
정확률(Precision), 재현율(Recall) 및 F-측정(F-measure)에 대하여 설명하시오. *
정확률을 찾은 것들 중에 정답이 있을 확률, 재현율은 정답들 중에서 내가 고른 것이 있는 확률이다. 이 둘을 조합으로 F-1 score를 사용하는데 , 이 둘을 1:1로 놓고 분석하는 것이었다.