0부터 시작하는 Deep Learning 2 읽기
3203 단어 DeepLearning기계 학습
학습 신경 네트워크
이어서 우리는 학습 신경 네트워크로 전환할 것이다.
손실 함수
제곱과 오차
\begin{eqnarray}
E=\dfrac {1}{2}\sum _{k}\left( y_{k}-t_{k}\right) ^{2}
\end{eqnarray}
제곱과 오차
\begin{eqnarray}
E=\dfrac {1}{2}\sum _{k}\left( y_{k}-t_{k}\right) ^{2}
\end{eqnarray}
t=[0,0,1,0,0,0,0,0,0,0,0,0]← 세 번째 요소가 정답일 때
E=0.097500000
교차 엔트로피
\begin{eqnarray}
E=-\sum _{k}t_{k}\log y_{k}
\end{eqnarray}
수치 미분
손실 함수를 사용하여 매개 변수를 최적화할 때 편미분을 사용합니다.
우선 미분의 설명부터 시작하겠습니다.
미분
어떤 지점의 전환량을 하식으로 구하다.
나는 고등학교 수학에서 $y=x^ {2}$를 $\dfrac {dy} {dx}=2x$로 미분할 수 있다고 배웠지만, 여기서는 또 다른 구법이라고 한다.\begin{eqnarray}
\dfrac {dt\left( x\right) }{dx}=\lim _{h\rightarrow 0}\dfrac {f\left( x+h\right) -f\left( x\right) }{h}
\end{eqnarray}
반올림 오차를 고려하면 $h=10^{-4} $정도의 비트가 좋습니다.
그러나 h의 값이 무한히 0에 가깝지 않기 때문에 중심차는 유효하다.
중심 차이는 $\dfrac{f\left(x+h\right)-f\left(x-h\right)}{2}$입니다.
편미분
$ f\left( x_{0}-x_{1}\right) = x_{0}^{2} + x_만약 여러 변수가 있다면, 예를 들어 {1}^{2}$
1개를 제외한 다른 변수에 고정값과 미분을 편미분이라고 한다.
이렇게 하면 고정치의 경사율을 알 수 있다.
경사도
$ x_{0}, x_{1}$두 지점의 편미분을 다음과 같이 요약합니다.\begin{eqnarray}
\left( \dfrac {\partial f}{\partial x_{0}}, \dfrac {\partial f}{\partial x_{0}}\right)
\end{eqnarray}
벡터로 표시하는 것을 경사라고 합니다.
$ f\left( x_{0},x_{1}\right) = x_{0}^{2} + x_{1}^{2}$의 각 점의 경사도를 계산해 봅시다.
경사도는 다음과 같습니다.
사다리법
경사도 방향에서 파라미터를 조정하여 최소값을 구하는 방법은 경사도법이다.\begin{eqnarray}
x_{0}=x_{1}-\eta \dfrac {\partial f}{\partial x_{0}}
\end{eqnarray}
\begin{eqnarray}
y_{0}=y_{1}-\eta \dfrac {\partial f}{\partial y_{0}}
\end{eqnarray}
$\eta$는 학습 비율을 나타냅니다.편미분 곱하기 학습률의 값으로 수정하는 것이다.
학습률을 0.01로 설정하고 $-3.04.0에서 100번 시도하면 $-6.11110793e^{-10}, 8.148144391e^{-10}, 무한 $, 0입니다.
만약 학습률이 너무 크거나 너무 작다면 기대한 결과에 도달하기 어려울 것이다.
학습률과 같은 파라미터를 초파라미터라고 하는데 잘 배울 수 있는 값을 찾아야 한다.
신경 네트워크의 사다리
사다리꼴법을 신경 네트워크에 어떻게 응용할 것인가를 고려하다.
신경 네트워크가 있는 경우 모양은 $2\times3$의 가중치 $W$만 있고 손실 함수는 $L$로 표시됩니다.\begin{eqnarray}
W=\begin{pmatrix}
w_{11}w_{21}w_{31} \\
w_{12}w_{22}w_{32}
\end{pmatrix}
\end{eqnarray}
\begin{eqnarray}
\dfrac {\partial L}{\partial W}=\begin{pmatrix}
\dfrac {\partial L}{\partial w_{11}} & \dfrac {\partial L}{\partial w_{21}} & \dfrac {\partial L}{\partial w_{31}} \\
\dfrac {\partial L}{\partial w_{12}} & \dfrac {\partial L}{\partial w_{22}} & \dfrac {\partial L}{\partial w_{32}}
\end{pmatrix}
\end{eqnarray}
Reference
이 문제에 관하여(0부터 시작하는 Deep Learning 2 읽기), 우리는 이곳에서 더 많은 자료를 발견하고 링크를 클릭하여 보았다
https://qiita.com/emj-naka/items/0c4cd9ecaaa274b81da8
텍스트를 자유롭게 공유하거나 복사할 수 있습니다.하지만 이 문서의 URL은 참조 URL로 남겨 두십시오.
우수한 개발자 콘텐츠 발견에 전념
(Collection and Share based on the CC Protocol.)
\begin{eqnarray}
\dfrac {dt\left( x\right) }{dx}=\lim _{h\rightarrow 0}\dfrac {f\left( x+h\right) -f\left( x\right) }{h}
\end{eqnarray}
$ x_{0}, x_{1}$두 지점의 편미분을 다음과 같이 요약합니다.
\begin{eqnarray}
\left( \dfrac {\partial f}{\partial x_{0}}, \dfrac {\partial f}{\partial x_{0}}\right)
\end{eqnarray}
벡터로 표시하는 것을 경사라고 합니다.$ f\left( x_{0},x_{1}\right) = x_{0}^{2} + x_{1}^{2}$의 각 점의 경사도를 계산해 봅시다.
경사도는 다음과 같습니다.
사다리법
경사도 방향에서 파라미터를 조정하여 최소값을 구하는 방법은 경사도법이다.\begin{eqnarray}
x_{0}=x_{1}-\eta \dfrac {\partial f}{\partial x_{0}}
\end{eqnarray}
\begin{eqnarray}
y_{0}=y_{1}-\eta \dfrac {\partial f}{\partial y_{0}}
\end{eqnarray}
$\eta$는 학습 비율을 나타냅니다.편미분 곱하기 학습률의 값으로 수정하는 것이다.
학습률을 0.01로 설정하고 $-3.04.0에서 100번 시도하면 $-6.11110793e^{-10}, 8.148144391e^{-10}, 무한 $, 0입니다.
만약 학습률이 너무 크거나 너무 작다면 기대한 결과에 도달하기 어려울 것이다.
학습률과 같은 파라미터를 초파라미터라고 하는데 잘 배울 수 있는 값을 찾아야 한다.
신경 네트워크의 사다리
사다리꼴법을 신경 네트워크에 어떻게 응용할 것인가를 고려하다.
신경 네트워크가 있는 경우 모양은 $2\times3$의 가중치 $W$만 있고 손실 함수는 $L$로 표시됩니다.\begin{eqnarray}
W=\begin{pmatrix}
w_{11}w_{21}w_{31} \\
w_{12}w_{22}w_{32}
\end{pmatrix}
\end{eqnarray}
\begin{eqnarray}
\dfrac {\partial L}{\partial W}=\begin{pmatrix}
\dfrac {\partial L}{\partial w_{11}} & \dfrac {\partial L}{\partial w_{21}} & \dfrac {\partial L}{\partial w_{31}} \\
\dfrac {\partial L}{\partial w_{12}} & \dfrac {\partial L}{\partial w_{22}} & \dfrac {\partial L}{\partial w_{32}}
\end{pmatrix}
\end{eqnarray}
Reference
이 문제에 관하여(0부터 시작하는 Deep Learning 2 읽기), 우리는 이곳에서 더 많은 자료를 발견하고 링크를 클릭하여 보았다
https://qiita.com/emj-naka/items/0c4cd9ecaaa274b81da8
텍스트를 자유롭게 공유하거나 복사할 수 있습니다.하지만 이 문서의 URL은 참조 URL로 남겨 두십시오.
우수한 개발자 콘텐츠 발견에 전념
(Collection and Share based on the CC Protocol.)
\begin{eqnarray}
x_{0}=x_{1}-\eta \dfrac {\partial f}{\partial x_{0}}
\end{eqnarray}
\begin{eqnarray}
y_{0}=y_{1}-\eta \dfrac {\partial f}{\partial y_{0}}
\end{eqnarray}
사다리꼴법을 신경 네트워크에 어떻게 응용할 것인가를 고려하다.
신경 네트워크가 있는 경우 모양은 $2\times3$의 가중치 $W$만 있고 손실 함수는 $L$로 표시됩니다.
\begin{eqnarray}
W=\begin{pmatrix}
w_{11}w_{21}w_{31} \\
w_{12}w_{22}w_{32}
\end{pmatrix}
\end{eqnarray}
\begin{eqnarray}
\dfrac {\partial L}{\partial W}=\begin{pmatrix}
\dfrac {\partial L}{\partial w_{11}} & \dfrac {\partial L}{\partial w_{21}} & \dfrac {\partial L}{\partial w_{31}} \\
\dfrac {\partial L}{\partial w_{12}} & \dfrac {\partial L}{\partial w_{22}} & \dfrac {\partial L}{\partial w_{32}}
\end{pmatrix}
\end{eqnarray}
Reference
이 문제에 관하여(0부터 시작하는 Deep Learning 2 읽기), 우리는 이곳에서 더 많은 자료를 발견하고 링크를 클릭하여 보았다 https://qiita.com/emj-naka/items/0c4cd9ecaaa274b81da8텍스트를 자유롭게 공유하거나 복사할 수 있습니다.하지만 이 문서의 URL은 참조 URL로 남겨 두십시오.
우수한 개발자 콘텐츠 발견에 전념 (Collection and Share based on the CC Protocol.)