첫 번째 모드 인식 8장 하드 여유 SVM

주의사항


본 보도는'첫 번째 패턴 식별'윤독회가 맡은 8장에 관한 비망록이다.
오류나 오류 기록이 있으면 알려주세요.

흐르다


첫 번째 패턴 식별 8장의 다음 3절을 정리한다.
• Hypervisor SVM
・ 소프트 마진 SVM
비선형 피쳐 매핑
→ 이번에는 하드코어 SVM

하드 여백 SVM 정의


최대 여백 $D_{max}$의 두 가지 선형 식별 경계를 실현하는 학습 방법
$$
\rho(\boldsymbol{w}) =\min_{x\in C_{1}}\frac{\boldsymbol{w}^{T}\boldsymbol{x}+b}{||\boldsymbol{w}||}-\max_{x\in C_{2}}\frac{\boldsymbol{w}^{T}\boldsymbol{x}+b}{||\boldsymbol{w}||} \tag{7.2}
$$
(편향 항목은 생략되지 않은 형식으로 표시됨)
여기 $\boldsymbol {x_{i}\inR^ {d}$는 학습 데이터입니다. $t_{i}= (-1,1) $는 교사 데이터이고, $\boldsymbol {w}, b$는 계수 벡터와 편차입니다.
→ 선형 분리 분류 문제의 두 가지 분류 방법에 대해 선형 식별 함수는 최적화를 통해 구한다.

이윤 이미지



선형 식별 경계 $(\boldsymbol {w}^ {T}\boldsymbol {x}+b=0) $를 빼면 선형 식별 경계에서 가장 짧은 데이터 점과 클래스의 지원 벡터 (SV) 입니다.
위의 이미지에서 0클래스의 SV는 빨간색 0이고 △클래스의 SV는 파란색 △입니다.그런 다음 각 SV까지의 거리를 여유라고 합니다. $D_{i}$로 표시합니다.
→ 잘못된 분류 없이 학급의 이윤을 극대화하는 선을 당기고 싶다.
→ 선형 식별 경계의 조건은 ① 무오류 분류이고 ② 선형 식별 경계와 SV의 거리가 가장 크다.

조건 ① 무오류 분류


i번째 데이터와 선형 식별 경계의 거리는 $d_{i}$, 여백은 $D$입니다.
점과 선의 거리이기 때문에.
$$
d_{i}=\frac{||\boldsymbol{w}^{T}\boldsymbol{x_{i}}+b||}{||\boldsymbol{w}||}\geq D\Rightarrow ||\boldsymbol{w}^{T}\boldsymbol{x_{i}}+b||\geq D||\boldsymbol{w}||=\kappa\\
\hspace{9.3cm}\Rightarrow ||\boldsymbol{w}^{T}\boldsymbol{x_{i}}+b||\geq D||\boldsymbol{w}||=1\quad (\because\boldsymbol{w}=\frac{\boldsymbol{w}}{\kappa},b=\frac{b}{\kappa})\\
\hspace{7.5cm}\Rightarrow\begin{cases}
||\boldsymbol{w}^{T}\boldsymbol{x_{i}}+b||\geq 1\qquad(\boldsymbol{w}^{T}\boldsymbol{x_{i}}+b\geq 0)\\
||\boldsymbol{w}^{T}\boldsymbol{x_{i}}+b||\leq -1\quad(\boldsymbol{w}^{T}\boldsymbol{x_{i}}+b\leq 0)
\end{cases}
$$
이로써 유형별로 예측의 기호를 구했다.그 위에 각각의 정답 라벨 (교사 표 $t_ {i}$) 을 곱하면 오류 분류가 되지 않았을 때 기호가 플러스이고 크기가 1보다 크다는 것을 알 수 있습니다.
따라서 여분을 조사하면 오류 없이 분류하는 조건이 하식이다.
$$
t_{i}(\boldsymbol{w}^{T}\boldsymbol{x_{i}}+b)\geq 1
$$

조건 ② 선형 식별 경계와 SV의 최대 거리


이전 절의 거리 공식에 따르면, 클래스 간의 여분은
$$
\rho(\boldsymbol{w})=\min_{x\in C_{i}}d_{i}-\max_{x\in C_{2}}d_{i}
=\frac{||\boldsymbol{w}^{T}\boldsymbol{x_{SV1}}+b||}{||\boldsymbol{w}||}-\frac{||\boldsymbol{w}^{T}\boldsymbol{x_{SV2}}+b||}{||\boldsymbol{w}||}
\\
\hspace{-10mm}=\frac{2}{||\boldsymbol{w}||}
$$
두 번째 등급은 SV까지의 거리가 조건①에서 귀일화된 변환을 응용했기 때문이다.
여기서 상술한 공식의 최대화 문제를 옮겨 보자.
$$
\max_{\boldsymbol{w},b}\rho(\boldsymbol{w},b)\Rightarrow\max_{\boldsymbol{w}}\frac{2}{||\boldsymbol{w}||}
\\
\hspace{6cm}\Rightarrow\max_{\\boldsymbol{w}}\frac{1}{\
\\
\hspace{6cm}\Rightarrow\min_{\boldsymbol {w}\boldsymbol {w}\quad(\because\mbox {최대화 → 마이너스 최소화})
\\
\hspace{9.5cm}\Rightarrow\min_{\\boldsymbol{w}}\frac{1}{2}\
\\
\hspace{2.7cm}\Rightarrow\min_{\boldsymbol{w}}\frac{1}{2}\boldsymbol{w}^{T}\boldsymbol{w}
$$

고려해야 할 최적화 문제 (주요 문제)


$$
\min\qquad f(\boldsymbol{w})=\frac{1}{2}\boldsymbol{w}^{T}\boldsymbol{w}\\
\mbox{subject to}\qquad g_{i}(\boldsymbol{w},b)=t_{i}(\boldsymbol{w}^{T}\boldsymbol{x_{i}}+b)\geq 1\quad(i=1,2,\cdots,N)
$$
SVM의 선형 식별 함수를 하드 여분하는 문제에 최적화된 평가 함수 $f(\boldsymbol {w}) $및 조건 $g_{i}(\boldsymbol{w}, b)$로 구성됩니다.이 문제를 고려하기 위해 라그랑일 함수를 도입하다.
$$
\min\qquad L(\boldsymbol{w},b,\boldsymbol{\alpha})=\frac{1}{2}\boldsymbol{w}^{T}\boldsymbol{w}-\sum_{i=1}^{N}\alpha_{i}(t_{i}(\boldsymbol{w}^{T}\boldsymbol{x}+b)-1)\\
\mbox{subject to}\qquad\alpha_{i}\geq0\quad(\mbox {라그랑일 미정승수})
$$
하면, 만약, 만약...
$$
L(\boldsymbol{w},b,\boldsymbol{\alpha})=\frac{1}{2}\boldsymbol{w}^{T}\boldsymbol{w}-\sum_{i=1}^{N}\alpha_{i}(t_{i}(\boldsymbol{w}^{T}\boldsymbol{x}+b)-1)\\
\hspace{4.2cm}=\frac{1}{2}\boldsymbol{w}^{T}\boldsymbol{w}-\sum_{i=1}^{N}\alpha_{i}t_{i}\boldsymbol{w}^{T}\boldsymbol{x_{i}}-b\sum_{i=1}^{N}\alpha_{i}t_{i}+\sum_{i=1}^{N}\alpha_{i}
$$
낙하산이지만 $\boldsymbol {w_{0}}, b_{0}$은(는) 아래에 표시된 최적화 조건(KKT 조건)의 해답입니다.

KKT 조건



상기 조건을 라그랑일 함수에 적용하면 KKT 조건 (1) (2) 미분의 형식을 얻는다.

하면, 만약, 만약...

쌍방향 문제


확장된 라그란데 함수와 KKT 조건에 따라 주 문제와 같은 문제(쌍방향 문제)를 얻을 수 있다.

주 문제와 쌍방향 문제의 이미지는 마치 안장과 같다.

최대 여백



총결산


선형 분자의 가능성에 대해 SVM은 강력한 방법이지만 계산 원가와 데이터가 커질 때의 차원 저주에 견디지 못하기 때문에 원가 도외의 과제로 삼는 것이 좋을 것이다.
수학에서 가장 좋은 식별 함수가 끌려나오고 데이터의 편차가 매우 강한 것은 기쁘기 때문에 아마도 생명이 걸린 것에 쓰려고 할 것이다.

추가


Quiita는 tex를 사용할 수 있다고 해서 많이 해봤는데 힘들어서 중간에 이미지 붙여넣기로 바꿨어요.Cloudlatex에서 만든 슬라이드를 사용하기 때문에 사용했지만 보도화에 큰 비용이 들기 때문에 방법을 고려해야 합니다.슬라이드share에서 열거한 포착 형식이 더 좋을 수 있습니다.

좋은 웹페이지 즐겨찾기