결정 트리 ( Decision Tree ) :
분류와 회귀, 다중출력 작업 모두 가능하다.
데이터 전처리가 거의 필요하지 않다. 특히 특성의 스케일을 맞추거나 평균을 원점에 맞추는 작업이 필요하지 않다.
O(n×mlog(m))
루트 노드 :
깊이가 0인 맨 꼭대기 노드
리프 노드 :
자식을 가지지 않는 노드
지니 불순도 ( gini impurity ) :
한 노드의 모든 샘플이 같은 클래스에 속해 있다면 이 노드는 순수 (gini=0)하다고 함 즉, 샘플이 다른 클래스에 속해있을 확률! 다음과 같이 구할 수 있다,
Gi=1−∑k=1npi,k2
pi,k는 i번째 노드에 있는 훈련 샘플 중 클래스 k에 속한 샘플의 비율이다!
화이트 박스와 블랙박스 :
화이트 박스 : 직관적이고 모델의 결정 방식이 보임
블랙박스 : 모델의 결정 방식을 설명하기 쉽지않다.
가지치기 ( post-pruning ) :
제한 없이 결정 트리를 훈런시키고 불필요한 노드를 제거하는 알고리즘