0부터 시작하는 Deep Learning 2 읽기

학습 신경 네트워크


이어서 우리는 학습 신경 네트워크로 전환할 것이다.

손실 함수


제곱과 오차

\begin{eqnarray}
E=\dfrac {1}{2}\sum _{k}\left( y_{k}-t_{k}\right) ^{2}
\end{eqnarray}
  • $ y_{k}$: 신경 네트워크의 출력 (소프트 맥스 함수 등을 통해)
  • $ t_{k}$: 교사 데이터
  • $k$: 데이터의 비트입니다
  • 예: y=[0.1,0.05,0.6,0.0,0.05,0.0,0.1,0.0,0.0]
    t=[0,0,1,0,0,0,0,0,0,0,0,0]← 세 번째 요소가 정답일 때
      E=0.097500000

    교차 엔트로피

    \begin{eqnarray}
    E=-\sum _{k}t_{k}\log y_{k}
    \end{eqnarray}
    

    수치 미분


    손실 함수를 사용하여 매개 변수를 최적화할 때 편미분을 사용합니다.
    우선 미분의 설명부터 시작하겠습니다.

    미분


    어떤 지점의 전환량을 하식으로 구하다.
    나는 고등학교 수학에서 $y=x^ {2}$를 $\dfrac {dy} {dx}=2x$로 미분할 수 있다고 배웠지만, 여기서는 또 다른 구법이라고 한다.
    \begin{eqnarray}
    \dfrac {dt\left( x\right) }{dx}=\lim _{h\rightarrow 0}\dfrac {f\left( x+h\right) -f\left( x\right) }{h}
    \end{eqnarray}
    
    반올림 오차를 고려하면 $h=10^{-4} $정도의 비트가 좋습니다.
    그러나 h의 값이 무한히 0에 가깝지 않기 때문에 중심차는 유효하다.
    중심 차이는 $\dfrac{f\left(x+h\right)-f\left(x-h\right)}{2}$입니다.

    편미분


    $ f\left( x_{0}-x_{1}\right) = x_{0}^{2} + x_만약 여러 변수가 있다면, 예를 들어 {1}^{2}$
    1개를 제외한 다른 변수에 고정값과 미분을 편미분이라고 한다.
    이렇게 하면 고정치의 경사율을 알 수 있다.

    경사도


    $ x_{0}, x_{1}$두 지점의 편미분을 다음과 같이 요약합니다.
    \begin{eqnarray}
    \left( \dfrac {\partial f}{\partial x_{0}},  \dfrac {\partial f}{\partial x_{0}}\right) 
    \end{eqnarray}
    
    벡터로 표시하는 것을 경사라고 합니다.
    $ f\left( x_{0},x_{1}\right) = x_{0}^{2} + x_{1}^{2}$의 각 점의 경사도를 계산해 봅시다.

    경사도는 다음과 같습니다.

    사다리법


    경사도 방향에서 파라미터를 조정하여 최소값을 구하는 방법은 경사도법이다.
    \begin{eqnarray}
    x_{0}=x_{1}-\eta \dfrac {\partial f}{\partial x_{0}}
    \end{eqnarray}
    
    \begin{eqnarray}
    y_{0}=y_{1}-\eta \dfrac {\partial f}{\partial y_{0}}
    \end{eqnarray}
    
    $\eta$는 학습 비율을 나타냅니다.편미분 곱하기 학습률의 값으로 수정하는 것이다.
    학습률을 0.01로 설정하고 $-3.04.0에서 100번 시도하면 $-6.11110793e^{-10}, 8.148144391e^{-10}, 무한 $, 0입니다.
    만약 학습률이 너무 크거나 너무 작다면 기대한 결과에 도달하기 어려울 것이다.
    학습률과 같은 파라미터를 초파라미터라고 하는데 잘 배울 수 있는 값을 찾아야 한다.

    신경 네트워크의 사다리


    사다리꼴법을 신경 네트워크에 어떻게 응용할 것인가를 고려하다.
    신경 네트워크가 있는 경우 모양은 $2\times3$의 가중치 $W$만 있고 손실 함수는 $L$로 표시됩니다.
    \begin{eqnarray}
    W=\begin{pmatrix}
    w_{11}w_{21}w_{31} \\
    w_{12}w_{22}w_{32}
    \end{pmatrix}
    \end{eqnarray}
    
    \begin{eqnarray}
    \dfrac {\partial L}{\partial W}=\begin{pmatrix}
    \dfrac {\partial L}{\partial w_{11}} & \dfrac {\partial L}{\partial w_{21}} & \dfrac {\partial L}{\partial w_{31}} \\
    \dfrac {\partial L}{\partial w_{12}} & \dfrac {\partial L}{\partial w_{22}} & \dfrac {\partial L}{\partial w_{32}}
    \end{pmatrix}
    \end{eqnarray}
    

    좋은 웹페이지 즐겨찾기