👨🏻‍🏫IT 활동

    [NLP] Day 36 - 특강

    자연어 프로젝트 특강5개 정도의 프로젝트 과정을 볼 것이다.1. 4차 산업혁명 키워드 도출(1) 크롤링등으로 데이터를 수집(2) 사전 데이터 구축 ( 정보통신용어사전, 국립국어원 )2. 항공산업 미래기술 예측미국 특허 사이트 벌크 다운로드 가능 (USPTO 특허 데이터)특허와 상표도 있음Technology Opportunity Discovery

    [NLP] Day 35 - Topic Clustering

    1. LSA를 사용해서 Topic Clustering이전 내용을 기반으로해서 News data에 적용시켜보기In [1]:import os corpus=[] for file in os.listdir('./News'): if file.startswith('정치'): with open('./News/'+file,encoding='utf-8') as f: corpus.append([file,f.read()]) In [2]:len(corpus) Out[2]:40In [3]:corpus[0][1] Out[3]:"\n\n\n\n\n// flash 오류를 우회하기 위한 함수 추가\nfunction _flash_removeCallback() {}\n\n 김부겸 행정안전부장관이 14일 서울 여의도 국회 행정안전위원회에 출..

    [NLP] Day 33 - LDA

    LDA 이제는 hard clustering이 아닌 soft clustering으로 각각의 토픽들이 확률로서의 값을 가진다.M개의 문서, 각각의 문서의 토픽 분포 θm (갯수 K) 에서 각각의 토픽내의 확률값에 따라 단어(w_1,w_2) N개 를 뽑아낸다. Z와 join해서. 그래서 W(단어)가 나오게 된다.N : M번째 문서에서 나온 단어의 수K개의 토픽을 고를 때, alpha가 관여하고, N개의 단어를 뽑을 때 beta가 관여함이를 Graphical model이라고 부를 것이다.각 단어 W에 대해서, 어떤 토픽분포에서 파생된 Z에서 왔는지를 찾는 것이 목표이다. generative process θi : Dirichlet(α)를 통해 결정. 특정 문서내에서 "토픽분포". i=0,1,2,⋯,M ( M: ..

    [Qwiklabs] 1. Introduction to APIs in Google

    Introduction to APIs in Google Google의 다양한 API에 대해서 알아보고 HTTP 구조와 JSON를 작성하고 API를 조금 이용해보는 시간을 가졌다. 이번 Qwiklabs에서는 Coursera처럼 중간중간에 퀴즈를 풀도록 하여 이해한 내용을 점검하도록 도왔다. HTTP의 GET,PUT,POST,DELETE 에 대해 다시금 이해했지만 이를 Qwiklabs에서는 적용하지 않았다! 뒤의 Objectives들 또한 마찬가지로 글을 읽으며 가볍게 이해하기 좋았다. 설명을 따라가면서 실습을 진행한다면 막힐 것이 없을 것 같다!

    [Coursera] 3. Generalization and Sampling

    마지막 강의인 Generalization and Sampling을 Google BigQuery를 통해 이해해보았다. Google BigQuery를 처음 접해봐서 낯선점이 있었지만 또 새로운 언어를 접했다는 것에 신기하고 좋은 경험이었다. 코스를 다 마치면 이렇게 수료증이 발급이 된다. Coursera의 Launching into Machine Learning의 경우에는 완전 초심자가 듣기보다는 어느정도 배경지식이 있는 상태에서 듣는다면, 복습이 되면서 지식을 확인하게 되는 기회가 되는 것 같다. 또한 Google BigQuery에 대해 몰랐다면 강의를 따라서 천천히 이해하기에 좋은 것 같다. 단기간에 강의를 다 들을 수 있었을 정도로, 짧지도 길지도 않은 알짜배기 ML 강의인 것 같다.(95%인건 마지막..