확률 계단 하강법의 이론 입문(증명편)

안녕하십니까. U-TOKYO AP Advent Calendar 2018 10일째 담당자 스노우호크입니다.
이 보도는 확률 계단 하강법의 이론 입문의 정리 증명편이다.

정리를 증명하다


매개 변수 $w$의 데이터 $(x_i, y_i) $의 손실 함수는 $l_i(w)$.
손실 함수 데이터 분포의 기대치 $L(w) =\mathbb{E}_{x_i, y_i}(l_i(w))$를 범용 오차라고 합니다.
$l_i(w)$가 $a-$플랫 볼록 함수이고 비음손실 함수일 때,
\mathbb{E}[L(\overline{w})]\leq \frac{1}{1-\eta a}(L(w^*) + \frac{{w^*}^2}{2\eta T}) \tag{1}
사용자 정의 모양새를 정의합니다.
이 정리는 SGD에서 얻은 매개 변수 $\overline {w}$의 범용 오차와 가장 좋은 매개 변수를 사용하는 범용 오차에 대한 평가입니다.
이 항목은 이 점을 증명하고자 한다.

준비


철함수와 평활함수의 정의를 다시 한 번 소개하고 그 성질을 소개한다.

볼록 함수


볼록 함수는 도표의 2점 선을 그릴 때 도표 아래에 나타나는 함수를 가리킨다.
볼록 함수 예

위의 예에서 도표의 2시에 녹색 선을 그리면 파란색 도표는 반드시 떨어진다.

볼록 함수 정의

関数fが凸関数であるとは,

f上の2点(x,f(x)), (y, f(y))と,\\
それらの間の点(tx + (1-t)y), f(tx + (1-t)y)) について,\\
f(tx + (1-t)y) \leq tf(x) + (1-t)f(y) が成立することです.

철 함수 성질 1


$f$가 미분철 함수일 때, 사다리 $f'(w)$, 모든 $w^*$에 대해
f(w) - f(w^*) \leq f'(w)(w-w^*) \tag{2}
사용자 정의 모양새를 정의합니다.
(증명)
미분과 평균 변화율의 정의를 보면 알 수 있다.

볼록 함수의 경우 사다리가 단조롭게 증가하고
\frac{f(w) - f(w^*)}{w-w^*} \leq f'(w) \ \ \  (w^* < w のとき)
이 색상은 색상이 바래집니다.

철 함수 성질 2


손실 함수 $l_i$가 볼록 함수일 경우 $w_i$와 $\overline{w}=\frac{\sum_{i=1}^Tw_i}{T}$,
L(\overline{w}) \leq  \frac{1}{T}\sum_i{L(w_i)}  \tag{3}
사용자 정의 모양새를 정의합니다.
(증명)
$l_i$는 돌출 함수입니다.
l_i(\overline{w}) \leq  \frac{1}{T}\sum_i{l_i(w_i)}
양쪽을 $x_로 설정i,y_i$에 대한 기대치를 얻으면 필요한 표현식을 얻을 수 있습니다. (증명 끝)
이 공식에 따르면 SGD의 각 $w_i$를 사용하는 것보다 평균 $\overline {w}$를 사용하는 것이 기대치에 더 좋습니다.

매끄러운 함수


이번에 고려한 제곱 손실의 함수는 평활성과 양호한 성질을 가지고 있다.

부드러운 함수 정의

微分可能な関数f(w)がa-平滑関数であるとは,  \\
|f'(w) - f'(u)|\leq a|w-u| \ が成立することです.

평활함수의 성질


미분 가능 함수 f(w)가 a-평활 함수일 때,
f(v)\leq f(w) + (v-w)f'(w) + \frac{a}{2} (v-w)^2
사용자 정의 모양새를 정의합니다.
(증명)
매끄러운 함수의 성질을 사용하기 위해 $f'(w+t(v-w)-f'(w)$를 평가합니다. 단, $t\in[0,1]$.
f'(w+t(v-w))-f'(w) \leq |f'(w+t(v-w))-f'(w)| \\
\leq a|w+t(v-w))-w| = at|v-w|
첫 번째 줄부터 두 번째 줄까지 부드러운 함수의 성질을 사용했다.
양쪽에서 $t$에 대해 [0,1] 포인트를 사용합니다.
\int_{[0,1]}(f'(w+t(v-w))-f'(w))dt \leq \int_{[0,1]} at|v-w|dt
우선, 오른쪽은,
\int_{[0,1]}at|v-w| dt = \frac{a}{2}|v-w|
다음 왼쪽은,
\int_{[0,1]}(f'(w+t(v-w))-f'(w)) dt = \frac{f(v) - f(w)}{v-w}-f'(w)
만약 네가 그것들을 대입한다면,
\frac{f(v) - f(w)}{v-w}-f'(w) \leq \frac{a}{2}|v-w|
$v>w$시와 $v

비음평활 함수의 성질


$f$가 마이너스가 아니라고 가정합니다. 상기 공식에서 $v=w-\frac{1}{a}f'(w)$,
f(v)\leq f(w) + (- \frac{1}{a}f'(w))f'(w) + \frac{a}{2} (- \frac{1}{a}f'(w))^2 \\
= f(w) - \frac{1}{2a} (f'(w))^2 \\
(f'(w))^2 \leq 2a(f(w) - f(v)) \leq 2af(w) \tag{4}
마지막 부등식에서 $f$는 마이너스가 아닙니다.

SGD


SGD의 알고리즘을 다시 나열합니다.
  • $\eta$
  • 설정
  • $w_1=0달러로 초기화
  • 단계 $i=1,2,\dots,T$다음 단계 반복
  • $(x_i, y_i)$견본
  • $w_{i+1} = w_i -\eta l_i'{(w_i)}$로 업데이트
  • $\overline{w}=\frac{\sum_iw_i}{T}$출력
  • SGD의 특성


    (SGD에만 해당되지 않음) 매개변수는 다음과 같이 업데이트됩니다.
    w_1=0, w_{i+1} = w_{i} - \eta v_{i}
    
    이 때, 모든 $w^*$,
    \sum_{i=1}^T (w_i-w^*)i_t \leq \frac{|w^*|^2}{2\eta} + \frac\eta 2 \sum_{i=1}^T |v_i|^2 
    
    특히 SGD의 경우 $v_i=l'(w_i)$,
    \sum_{i=1}^T (w_i-w^*)l'(w_i) \leq \frac{|w^*|^2}{2\eta} + \frac\eta 2 \sum_{i=1}^T |l'(w_i)|^2 \tag{5}
    
    사용자 정의 모양새를 정의합니다.
    (증명)
    현재의 절차와 앞의 절차의 제곱차 $(w_{i+1}-w^*)^2-(w_i-w^*)^2$를 비교하는 것이 증명의 요점이다.
    표현식 업데이트 $w_{i+1} = w_i -\eta v_{i}$를 사용할 수 있습니다.
    (w_{i+1}-w^*)^2-(w_i-w^*)^2 = (w_i - \eta v_{i}-w^*)^2-(w_i-w^*)^2 \\
    = -2\eta v_{i}(w_i-w^*) + (\eta v_{i})^2 
    
    양쪽 $i$의 합계에 관하여.
    (w_{T+1}-w^*)^2-(w_1-w^*)^2 = -2\eta \sum_{i=1}^T v_{i}(w_i-w^*) + \sum_{i=1}^T (\eta v_{i})^2 
    
    이항 평가,
    2\eta \sum_{i=1}^T v_{i}(w_i-w^*) \leq -(w_{T+1}-w^*)^2+(w_1-w^*)^2 + \sum_{i=1}^T (\eta v_{i})^2 \\
    \leq (w_1-w^*)^2 + \sum_{i=1}^T (\eta v_{i})^2 \\
    \leq (w^*)^2 + \sum_{i=1}^T (\eta v_{i})^2 
    
    마지막으로, $w_1=0달러입니다. 양쪽을 $2\eta$로 나누면 필요한 공식을 얻을 수 있습니다. (증명 끝)

    정리적 증명


    지금까지 나타난 철함수의 성질, 평활함수의 성질, SGD의 성질을 모두 조합하면 목적식(1)을 증명할 수 있다.
    (1)의 증명)
    먼저 SGD의 성질을 $(5)$로 사용합니다.
    \sum_{i=1}^T (w_i-w^*)l'(w_i) \leq \frac{|w^*|^2}{2\eta} + \frac\eta 2 \sum_{i=1}^T |l'(w_i)|^2 \tag{5}
    
    왼쪽의 $(w_i-w^*)l'(w_i)$를 참고하십시오. 볼록 함수의 성질은 $(2)$입니다.
    \sum_{i=1}^T (l_i(w_i)-l_i(w^*)) \leq \frac{|w^*|^2}{2\eta} + \frac\eta 2 \sum_{i=1}^T |l'(w_i)|^2 
    
    오른쪽에 있는 $|l'(w_i)|^2$를 주의하십시오. 비음평활 함수의 성질은 $(4)$입니다.
    \sum_{i=1}^T (l_i(w_i)-l_i(w^*)) \leq \frac{|w^*|^2}{2\eta} + \frac\eta 2 \sum_{i=1}^T (2a)l(w_i)  \\
    = \frac{|w^*|^2}{2\eta} + \eta a \sum_{i=1}^T l(w_i)
    
    이항 정리.
    (1-\eta a)\sum_{i=1}^T l_i(w_i) \leq 
    \sum_{i=1}^T l_i(w^*) + \frac{|w^*|^2}{2\eta}
    
    양쪽을 $T$로 나눈다.
    (1-\eta a)\frac{\sum_{i=1}^T l_i(w_i)}{T} \leq 
    \frac{\sum_{i=1}^T l_i(w^*)}{ T } + \frac{|w^*|^2}{2\eta T}
    
    양쪽의 기대치를 가져옵니다. $\sum_{i=1}^T l_i(w^*)=TL(w^*)$.
    (1-\eta a)\frac{\sum_{i=1}^T L(w_i)}{T} \leq 
    \frac{TL(w^*)}{ T } + \frac{|w^*|^2}{2\eta T} = L(w^*) + \frac{|w^*|^2}{2\eta T}
    
    마지막으로 볼록 함수의 성질 $(3)L (\overline{w})\leq\frac{1}{T}\sum_i{L(w_i)}$를 왼쪽에 적용합니다.
    (1-\eta a)L(\overline{w}) \leq L(w^*) + \frac{|w^*|^2}{2\eta T}
    
    양쪽을 $1-\eta$로 계산하면 필요한 공식을 얻을 수 있습니다. 수고하셨습니다!

    총결산


    확률 계단법은 매우 깊은 이론을 가지고 그 유효성은 지금까지도 연구 중이다. (가장 간단한 예라도 상당히 어렵다.)
    이번에는 간단하게 보기 위해 매개 변수 $w$를 1차원으로 설정하였으나, 다차원 매개 변수의 경우에도 완전히 성립되었다.
    마지막으로 참고 문헌을 열거하다.
    스즈키 대자《확률의 최적화》
    화책이지만 다소 일반적이고 형식적인 글쓰기를 사용하기 때문에 초보자에게는 어려울 수 있다.
    S. Shalev-Shwartz, S. Ben-David 『Understanding Machine Learning: From Theory to Algorithms』
    서양책이지만 내용 자체는 초보자도 이해하기 쉽다.
    U-TOKYO AP Advent Calendar 2018은 계속됩니다!

    좋은 웹페이지 즐겨찾기