개발차

    [NLP] Day 22 - KNN

    KNNhttps://nlp.stanford.edu/IR-book/newslides.html확률 모델을 이용할 것 이다.확률로 Text Classification을 할 것.분류를 추천에도 이용할 수 있다.No-Free-lunch : 데이터에 라벨을 스스로 붙여야한다.그 전에 확률에 대해 짚고 넘어가자.MLE ( Maximum Likelihood Estimation )빈도 추정과 / bayes를 이용한 방법이 있다.이항 분포를 따름log를 취하는 이유는 극한으로 보내는 것이 거의 관례인데, x&y가 정비례하게 증가하기에 사용한다.PAC learning : Probably approximate correction 에러의 범위를 줄이기 위해 시행 횟수를 늘리려고 하는 것이다. e, 와 N에 관계가 있다.MAP ..

    [KOCW 확률통계] 01강. 조건부확률과 Bayes 정리

    제 01강. 조건부확률과 Bayes 정리 기본적인 확률과 통계에 대한 지식을 짚어보고 시작해보자.(1) Sample Space -> S(set) (2) Event(A) : 𝐴⊂𝑆 𝑃(𝐴) : A가 발생할 확률을 말한다. (3) Conditional Probabilities 베이지안, 조건부 확률이다.𝑃(𝐵|𝐴)=𝑃(𝐵∩𝐴)𝑃(𝐴)=𝑃((𝐵∩𝐴)|𝑆)𝑃(𝐴|𝑆) A가 조건으로 있을 때, B가 발생할 확률을 말한다.S는 subspace라 굳이 표기하지 않고 중간 과정만 사용한다. (4) Total Probability 𝑃(𝐴)=𝑃(𝐴1)+𝑃(𝐴2)+⋯+𝑃(𝐴𝑛) : 서로 겹치지 않는 "배반사건"들의 합이다.{𝐴1,𝐴2,⋯,𝐴𝑛} : partition of "A" 𝑃(𝐴1)=𝑃(𝐴1∩𝐴)=𝑃(𝐴|𝐴1)𝑃(𝐴1..

    [NLP] Day 21 - 딥러닝 특강

    Deeplearning 특강바로 실습으로 넘어가자!Tensorflow & Keras의 기초에 대해 알아보자.Tensorflow¶In [1]:import tensorflow as tf In [4]:a = tf.constant(3.0) b = tf.constant(4.0) c = tf.constant(5.0) d=a*b+c print(d) Tensor("add_2:0", shape=(), dtype=float32) In [5]:# 노드와 엣지를 이용한 그래프를 그려 Session을 이용하여 출력하는 것. # 그래야 값이 출력됨. sess = tf.Session() sess.run(d) Out[5]:17.0Linear RegressionIn [24]:# 입력 및 모델 정의 W = tf.Variable(tf.r..

    [NLP] Day 20 - Project2

    Project 2비정형 데이터를 이용한 검색엔진가중치와 Similarity를 이용 In [2]:import os def getFileList(base='./', ext='.txt'): fileList = list() for file in os.listdir(base): if file.endswith(ext): # == if file.split('.')[-1] == ext: fileList.append('{0}/{1}'.format(base, file)) return fileList In [3]:# def getNewsRank(): # for file in os.listdir(base): # with open(file,encoding='utf-8') as f: # content = f.read() # re..

    [핸즈온 머신러닝] 제 8장 연습문제 풀이

    Exercise Part. 8Dimensionality_reduction1. 데이터셋의 차원을 축소하는 주요 목적은 무엇인가요? 대표적인 단점은 무엇인가요?주 목적 : 알고리즘 속도 향상, 데이터 시각화를 통한 통찰, 메모리 공간 절약단점 : 정보 손실로 인한 알고리즘 성능 저하, 계산 비용 높음, 파이프라인 복잡도 증가, 변환된 데이터 이해 어려움2. 차원의 저주란 무엇인가요?저차원 공간에서는 없는 문제가 고차원에서는 발생한다는 것. 무작위로 선택한 고차원 벡터는 매우 희소해서 과대적합의 위험이 크다. 많은 양의 데이터를 필요로한다.3. 데이터셋의 차원을 축소시키고 나서 이 작업을 원복할 수 있나요? 할 수 있다면 어떻게 가능할까요? 가능하지 않다면 왜일까요?완벽하게 되돌리는 것은 불가능. 재구성정도는..

    [핸즈온 머신러닝] 제 8장 정리

    Part 8. dimensionality_reductionKeyword차원 축소 :차원 축소는 훈련 속도를 높이는 것, 데이터 시각화에도 아주 유용하다.하지만 차원을 축소시키면 일부 정보가 유실된다.투영 ( Projection ) :데이터는 고차원 공간 안의 저차원 부분 공간에 놓여있다. 투영 말 그대로 훈련 샘플을 부분 공간에 수직으로 투영하면 2D 데이터 셋을 얻을 수 있다.매니폴드 ( manifold ) :2D 매니폴드는 고차원 공간에서 휘어지거나 뒤틀린 모양이다.많은 차원 축소 알고리즘이 훈련 샘플이 놓여 있는 매니폴드를 모델링하는 식으로 작동하는 것이 매니폴드 학습이다.모델을 훈련시키기 전에 훈련 세트의 차원을 감소시키면 훈련 속도는 빨라지지만 항상 더 낫거나 간단한 솔루션이 되는 것은 아니다...