📗강의노트/핸즈온 머신러닝

    [핸즈온 머신러닝] 제 4장 연습문제 풀이

    Hands on Machine-LearningPart.4 - Training Model1. 수백만 개의 특성을 가진 훈련 세트에서는 어떤 선형 회귀 알고리즘을 사용하나요?보통은 확률적 경사 하강법(SGD), 미니배치 경사 하강법을 사용한다. 훈련 세트의 크기가 메모리에 맞다면 배치 경사 하강법도 가능하다. 하지만 정규방정식은 계산 복잡도가 "특성의 갯수"에 따라 매우 빠르게 증가하기에 사용할 수 없다.=> 확률적 경사 하강법(SGD), 미니배치 경사 하강법, 배치 경사 하강법 O / 정규방정식 X2. 훈련 세트에 있는 특성들이 각기 다른 스케일을 갖고 있다. 이런 데이터에 잘 작동하지 않는 알고리즘은? 그 이유는? 문제 해결은 어떻게 하는가?길쭉한 타원형의 비용함수가 형성된다. 경사하강법 (GD) 알고리..

    [핸즈온 머신러닝] 제 4장 정리

    Jupyter Notebook Markdown 이용해서 수식, 코드 입력하고 HTML출력해서 포스팅하는게 더 편리하네요! Part. 4 Model Training 정리Keyword선형 회귀 :ŷ =θ0+θ1x1+θ2x2+⋯+θnxnŷ : 예측값 n : 특성의 수 θ : 모델 파라미터ŷ =h0(x)=θT•xθ : 모델 파라미터T는 행벡터를 의미x는 샘플의 특성 벡터MSE :MSE(X,h0)=1m∑i=1m(θT•x(i)−y(i))2가설 - 실제의 제곱들의 합의 평균 => 평균 제곱 오차라고 불린다.정규방정식 :비용 함수를 최소화하는 θ를 찾기 위한 해석적인 방법이다.θ̂ =(XTX)−1•XT•yθ̂ : 비용 함수를 최소화하는 θ의 값y : y(1) ~ y(m) 까지 포함하는 타깃 벡터X : 훈련 세트계..

    [핸즈온 머신러닝] 제 3장 정리

    3장에서는 MNIST Data를 이용한 분류를 보여주고 있다. 70,000개의 이미지이고 각각의 이미지는 784개의 특성을 가지고 있다.(28x28) Train / Test Split ( 데이터셋 섞어서 ) 모델 훈련 성능 측정 ( 교차검증 / GridSearch ) 정확도만으로는 분류기의 성능 측정 부족 ( 특히 불균형데이터 ) 4. 에러 분석 5. 성능 개선 Keyword 확률적 경사 하강법 ( Stochastic Gradient Descent, SGD ) : 큰 데이터셋을 효율적으로 처리하는 장점이 있다. SGD가 한 번에 하나씩 훈력 샘플을 독립적으로 처리하기 때문 ( 온라인 학습에 잘 맞음 ) 오차 행렬( Confusion Matrix ) : 기본적인 아이디어는 클래스 A의 샘플이 클래스 B로 ..

    [핸즈온 머신러닝] 제 2장 응용

    https://www.kaggle.com/vishalyo990/prediction-of-quality-of-wine 위의 Kaggle data를 이용하고 위의 코드를 이용하여 실행해보았다. 결론적으로는 품질 예측에 대해 rfc가 Cross-Validation을 거치고 가장 높은 정확도를 보였다.

    [핸즈온 머신러닝] 제 2장 정리

    Keywords를 살펴보기 전에 머신러닝의 프로젝트 순서를 알아보자 큰 그림을 보고 데이터를 구하고 데이터로 부터 통찰을 얻기 위해 탐색하고 시각화한다. 머신러닝 알고리즘을 위해 데이터를 준비 모델을 선택하고 훈련시킴 모델을 상세하게 조정한다 솔루션을 제시 시스템을 론칭하고 모니터링하고 유지 보수 Keywords 평균 제곱근 오차(RMSE : Root Mean Square Error) : 오차가 커질수록 이 값은 커짐, 예측에 얼마나 많은 오류가 있는지 가늠하게 해줌, 제곱항을 합한 것의 제곱근(RMSE)는 “유클리디안 노름”에 해당, L2 / 노름의 지수가 클수록 큰 값의 원소에 치우치며 작은 값은 무시되는데 이 때문에, MAE보다 조금 더 이상치에 민감함. (이상치가 드물경우 RMSE가 good) 평..

    [핸즈온 머신러닝] 제 1장 정리

    Keywords머신러닝 : 머신러닝은 데이터로부터 학습할 수 있는 시스템을 만드는 것 데이터 마이닝 : 겉으로는 보이지 않는 패턴을 발견하는 것 지도 학습 : 훈련 데이터에 레이블이라는 답이 포함 분류와 회귀가 대표적 비지도 학습 : 훈련데이터에 레이블이 없음, 아무런 도움 없이 스스로 학습 군집, 시각화와 차원 축소, 이상치 탐지, 연관 규칙 학습이 대표적 특성 추출(feature extraction) : 연관된 특성을 하나의 특성으로 합치는 것 이상치 탐지 : 학습 알고리즘에 주입하기 전 데이터셋에서 이상한 값을 제거하는 것 준지도 학습 : 일부 데이터만 레이블이 존재 강화 학습 : 시간이 지나면서 보상을 얻기 위한 정책이라 불리는 최상의 전략을 스스로 학습하는 것 배치 학습 : 시스템이 점진적으로 ..