개발차

    [핸즈온 머신러닝] 제 7장 정리

    Part 7. Ensemble_learning and random forestsKeyword앙상블 학습 :집단지성과 같은 개념랜덤 포레스트 ( RF ) :모든 개별 트리의 예측을 구하고, 다음 가장 많은 선택을 받은 클래스를 예측으로 삼는다.특성의 상대적 중요도를 측정하기 쉽다.직접 투표 :다수결 투표로 정해지는 분류기간접 투표 :개별 분류기의 예측을 평균 내어 확률이 가장 높은 클래스를 예측할 수 있다.확률이 높은 투표에 비중을 더 두기 때문에 직접 투표 방식보다 성능이 높다.배깅 ( Bagging ) :훈련 세트의 서브셋을 무작위로 구성하여 분류기를 각기 다르게 학습시키는 것.병렬로 학습 가능서브셋에 다양성을 증가시키므로 페이스팅보다 편향이 조금 더 높다.페이스팅 ( Pasting ) :훈련 세트의 ..

    [NLP] Day 13 - POS Taggers

    POS ( Part Of Speech )In [9]:import re from string import punctuation from nltk.tokenize import word_tokenize sentence = "She sells seashells on the seashore." # tokens = word_tokenize(sentence) pattern = re.compile(r"[{0}]".format(re.escape(punctuation))) sentence = pattern.sub("",sentence) tokens = word_tokenize(sentence) result=[] for token in tokens: if pattern.search(token): print(token) el..

    [NLP] Day 12 - Normalization

    Normalization이전에 저번 시간에 못했던,Empirical Law크게 두 가지 법칙 !Zipf's Law경험에서 나온 법칙이다.단어의 빈도는 rank와 반비례한다. 1번 단어가 많이 나오면 2번은 앞 단어의 절반이다. ~~ In [59]:from matplotlib import font_manager, rc path='/Library/Fonts/AppleGothic.ttf' family = font_manager.FontProperties(fname=path).get_name() rc('font' ,family=family) In [69]:from nltk.corpus import gutenberg from konlpy.corpus import kolaw from nltk import Text ..

    [NLP] Day 11 - Preprocessing 2

    Preprocessing 2¶In [1]:import nltk In [3]:from nltk.corpus import gutenberg corpus = gutenberg.open(gutenberg.fileids()[0]).read() In [4]:from nltk.tokenize import sent_tokenize, word_tokenize len(corpus.splitlines()), len(sent_tokenize(corpus)), len(word_tokenize(corpus)) # 문장과 어휘의 개수. Out[4]:(16823, 7493, 191785)In [5]:from nltk import Text # Token을 기반으로 정보를 담기 위한 인스턴스이다. tokens = word_tokeniz..

    [CS231n] 14. Deep Reinforcement Learning

    강화학습은 에이전트의 보상을 최대화할 수 있는 행동이 무엇인지를 학습하는 것이다. 강화학습의 대표적인 방법인 Q-Learning과 Policy Gradients에 대해서 배워볼 것이다. 에이전트와 환경이 있다. 그리고 환경에서 에이전트에게 상태가 주어진다. 그리고 에이전트는 행동을 하게된다. 그러면 환경은 행동에 따라 에이전트에게 보상을 주고 다음 상태를 부여한다. 계속 반복이된다. 고전적인 문제이다. 게임을 학습시켜 높은 점수를 따게 할 수 있다. 과연 수학적으로는 어떻게 나타낼까? Markov Decision Process를 통해서 강화학습 문제를 수식화 시킬 수 있다. Markov property란 현재 상태만으로 전체 상태를 나타내는 성질이다. 환경은 초기 상태 분포인 p(s_0)에서 상태 s_0..