라지 마지 분류 ( Large Margin Classification ) :
SVM 분류기를 클래스 사이에 가장 폭이 넓은 도로를 찾는 것. ( 결정 경계와 샘플간의 거리 커야함 )
서포트 벡터 ( Support Vector ) :
결정 경계 바깥쪽에 위치한 훈련 샘플
하드 마진 분류 ( Hard Margin Classification ) :
모든 샘플이 결정 경계 바깥쪽에 올바르게 분류되어 있는 것
하지만 두 가지 문제점이 존재한다.
(1) 데이터가 선형적으로 구분될 수 있어야 제대로 작동한다 (2) 이상치에 민감하다
소프트 마진 분류 ( Soft Margin Classification ) :
"결정 경계의 폭을 가능한 한 넓게 유지하는 것" 과 "마진 오류" 사이에 적절한 균형을 잡아야함
C와 gamma 이용
C값을 줄이면 도로의 폭이 넓어지지만 마진 오류도 커진다. ( 높은 것 보다는 일반화가 더 잘 됨 )
C값을 줄여 모델을 규제할 수 있다. ( 과대적합에서 일반화 )
마진 오류 ( Margin Violation ) :
샘플이 결정 경계의 밖(심지어 반대편)이나, 중간에 있는 경우
SVC
큰 훈련 세트에서는 속도가 매우 느리므로 권장되지 않는다.
커널 트릭이 가능하다.
커널 트릭 ( Kernel Trick ) :
실제로 특성을 추가하지 않으면서 다항식 특성을 많이 추가한 것과 같은 결과를 얻을 수 있다.
유사도 측정 :
각 샘플이 특정 "랜드마크(Landmark)"와 얼마나 닮았는지 측정하는 "유사도 함수(similarity function)"로 계산한 특성을 추가하는 것.
방사 기저 함수 ( Radial Basis Function : RBF ) :
가우시안 RBF 커널 :
gamma를 증가시키면 종 모양 그래프가 좁아져서 각 샘플의 영향 범위가 작아진다. 결정 경계 불규칙. 모델이 과소적합일 때 gamma 증가시켜 해결 가능.
gamma가 감소하면 넓은 종모양, 결정 경계가 부드러워짐. 모델이 과대적합일 때 gamma를 감소시켜서 해결 가능
SVM 회귀 :
결정 경계의 폭이 가능한 한 초;대가 되도록 하는 대신, SVM회귀는 제한된 마진 오류 안에서 결정 경계 안에 가능한 한 많은 샘플이 들어가도록 학습한다.
마진 안에서는 샘플이 추가되어도 모델의 예측에는 영향이 없다. 마진 하이퍼파라미터에 민감하지 않다는 것 이다.
선형 SVM분류기를 훈련한다는 것은 마진 오류를 하나도 발생하지 않거나(하드), 제한적인 마진 오류를 가지면서(소프트) 가능한 한 마진을 크게하는
C와 gamma :
- C(=cost)는 얼마나 많은 데이터 샘플이 다른 클래스에 놓이는 것을 허용하는 지를 결정한다.
C가 높으면 과대적합의 위헙이 있다. 이상치의 존재 가능성을 낮게 봐서 더 세심한 결정 결계를 형성하기 때문이다,
C가 낮으면 과소적합의 위험있다. 다소 일반적인 경계를 형성하기 때문이다.
- gamma 는 하나의 데이터 샘플이 영향력을 행사하는 거리를 결정한다. ( 결정 경계의 곡률을 조정 )
gamma가 증가하면(감소하면) 포인터들이 행사하는 거리가 줄어든다(늘어난다)
가우시안 함수에서 gamma가 작아질 수록 종모양이 커지고, gamma가 커지면 종모양이 좁아진다.
결정 함수 :
결정 함수의 기울기는 가중치 벡터의 노름
가중치 벡터
힌지 손실 :
max(0,1-t) 함수를 힌지 손실 함수라고 부른다.