728x90

Part 7. Ensemble_learning and random forests

Keyword

앙상블 학습 :

집단지성과 같은 개념

랜덤 포레스트 ( RF ) :

모든 개별 트리의 예측을 구하고, 다음 가장 많은 선택을 받은 클래스를 예측으로 삼는다.

특성의 상대적 중요도를 측정하기 쉽다.

직접 투표 :

다수결 투표로 정해지는 분류기

간접 투표 :

개별 분류기의 예측을 평균 내어 확률이 가장 높은 클래스를 예측할 수 있다.

확률이 높은 투표에 비중을 더 두기 때문에 직접 투표 방식보다 성능이 높다.

배깅 ( Bagging ) :

훈련 세트의 서브셋을 무작위로 구성하여 분류기를 각기 다르게 학습시키는 것.

병렬로 학습 가능

서브셋에 다양성을 증가시키므로 페이스팅보다 편향이 조금 더 높다.

페이스팅 ( Pasting ) :

훈련 세트의 서브셋에 대해 중복을 허용하지 않고 샘플링하는 방식.

병렬로 학습 가능

oob ( out of bag ) :

배깅을 이용한 샘플링후 선택되지 않은 훈련 샘플들.

교차 검증이나 검증 세트에 사용하여 평가할 수 있다.

랜덤 패치 방식 :

훈련 특성과 샘플을 모두 샘플링하는 것.

랜덤 서브스페이스 방식 :

훈련 샘플은 모두 사용하고, 특성은 샘플링 하는 것

엑스트라 트리 :

트리를 더 무작위하게 만들기 위해 "최적의 임곗값"을 찾는 대신 후보 특성을 사용해 무작위로 분할한 다음 그중에서 최상의 분할을 선택함

편향은 늘지만 분산을 낮추게 됨.

부스팅 :

약한 학습기를 여러 개 연결하여 강한 학습기를 만드는 앙상블 방법을 말함.

앞의 모델을 보완해나가면서 일련의 예측기를 학습시키는 것

아다부스트 ( Adaboost ) :

이전 예측기를 보완하는 새로운 예측기를 만드는 방법. 예측기는 학습하기 어려운 샘플에 점점 맞춰지게 된다.

잘못 분류된 훈련 샘플의 가중치를 상대적으로 높인다.

경사하강법은 비용 함수를 최소화하기 위해 한 예측기의 모델 파라미터를 조정해가는 반면 아다부스트는 점차 더 좋아지도록 앙상블에 예측기를 추가한다.

그레디언트 부스팅 ( Gradient Boosting ) :

아다부스트처럼 그레디언트 부스팅은 앙상블에 이전까지의 오차를 보정하도록 예측기를 순차적으로 추가.

다른점으로는, 이전 예측기가 만든 "잔여 오차"에 새로운 예측기를 학습시킨다.

트리가 앙상블에 추가될수록 앙상블의 예측이 점차 좋아지는 것을 알 수 있다.

스태킹 ( Stacking ) :

앙상블에 속한 모든 예측기의 예측을 취합하는 간단한 함수를 사용하는 대신 취합하는 모델을 훈련시킬 수 없을까?? 에서 시작!