👨🏻‍🏫IT 활동/인공지능교육 - NLP

    [NLP] Day 40 - Final

    NLP 마무리 음절, 어절, 문장, 문단 및 담화의 차이점에 대하여 설명하시오 *음절이란, 소리가 나는 최소한의 단위로 낱글자 하나이고, 어절은 띄어쓰기의 단위로 구분이 되고, 어절이 모여서 문장이 되는 것이고, 문장들이 모여서 문단이 생기게 된다. 그리고 문단들의 의미가 생기면서 의미를 담고 있는 담화가 만들어지게 된다. 토큰화(Tokenization)에 대하여 설명하시오 *전처리에서 필요한 과정이다. 대문자,소문자, 기호를 제거하려고 실행한다. 구두점도 분리하는등 정제하는 데 필요하다. 의미를 가지는 최소한의 단위를 얻기 위함이다. 지프(Zipf)의 법칙과 힙스(Heaps)의 법칙에 대하여 설명하시오 *자기 순위와 빈도를 역순으로 가져가는데 고빈도 / 저빈도로 나뉜다. 너무 잘나오거나 너무 희귀한 단..

    [NLP] Day 39 - Word_Embedding

    머신러닝 자연어 처리 기술Word_Embedding¶In [109]:import numpy as np words = ["I","like","enjoy","deep","learning","NLP","flying","."] X = np.array([[0,2,1,0,0,0,0,0], [2,0,0,1,0,1,0,0], [1,0,0,0,0,0,1,0], [0,1,0,0,1,0,0,0], [0,0,0,1,0,0,0,1], [0,1,0,0,0,0,0,1], [0,0,1,0,0,0,0,1], [0,0,0,0,1,1,1,0]]) U,Sigma,V = np.linalg.svd(X,full_matrices=False) In [110]:Sigma Out[110]:array([2.75726275, 2.678248 , 1.892..

    [NLP] Day 38 - Movie_Sentiment

    Movie_Sentiment_Analysishttps://web.stanford.edu/class/cs124/lec/sentimentvideoslides2019.pdfIn [119]:import requests headers = {'user-agent':'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_14_2) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/72.0.3626.121 Safari/537'} def getDownload(url, param = None, retries = 3): resp = None try: resp = requests.get(url, params = param, headers = headers) resp.rai..

    [NLP] Day 37 - LDA & Sentiment_Analysis

    1. LDA_ImplementationIn [277]:import os corpus = list() for filename in os.listdir('./News'): if filename.startswith('정치'): with open('./News/'+filename,encoding='utf-8') as f: corpus.append(f.read()) In [278]:corpus[0] Out[278]:"\n\n\n\n\n// flash 오류를 우회하기 위한 함수 추가\nfunction _flash_removeCallback() {}\n\n 김부겸 행정안전부장관이 14일 서울 여의도 국회 행정안전위원회에 출석해 얼굴을 어루만지고 있다. [뉴스1] 김부겸 행정안전부 장관이 정부의 개각 인사 발표 방식에..

    [NLP] Day 36 - 특강

    자연어 프로젝트 특강5개 정도의 프로젝트 과정을 볼 것이다.1. 4차 산업혁명 키워드 도출(1) 크롤링등으로 데이터를 수집(2) 사전 데이터 구축 ( 정보통신용어사전, 국립국어원 )2. 항공산업 미래기술 예측미국 특허 사이트 벌크 다운로드 가능 (USPTO 특허 데이터)특허와 상표도 있음Technology Opportunity Discovery

    [NLP] Day 35 - Topic Clustering

    1. LSA를 사용해서 Topic Clustering이전 내용을 기반으로해서 News data에 적용시켜보기In [1]:import os corpus=[] for file in os.listdir('./News'): if file.startswith('정치'): with open('./News/'+file,encoding='utf-8') as f: corpus.append([file,f.read()]) In [2]:len(corpus) Out[2]:40In [3]:corpus[0][1] Out[3]:"\n\n\n\n\n// flash 오류를 우회하기 위한 함수 추가\nfunction _flash_removeCallback() {}\n\n 김부겸 행정안전부장관이 14일 서울 여의도 국회 행정안전위원회에 출..