중간 정리 : 신경망의 순전파

139887 단어 순전파 신경망 순전파

1. 신경망의 순전파

1-1. 신경망과 퍼셉트론

1-1-1. 신경망과 퍼셉트론의 공통점

신경망에서, 각 뉴런은 다음 층의 뉴런으로 신호를 전달한다는 측면에서 퍼셉트론과 유사한 부분이 있음을 알았다.

1-1-2. 신경망과 퍼셉트론의 차이점

그러나 퍼셉트론에서는 활성화 함수로 계단 함수를 사용했다. 두 개의 입력이 퍼셉트론에 가해진다고 가정했을 때, 수식은 아래와 같았다.

y = h(W_1x_1+W_2x_2+b)\\ h(x)=\begin{cases} 0(x\le0)\\ 1(x>0) \end{cases}

[ $h(x)$
그러나 신경망에서는 다른 비선형 함수들도 활성화 함수로 사용한다.

$h(x)={1 \over {1+e^{-x}}}$
[Sigmoid Function]

$h(x)=\begin{cases} 0(x\le0)\\ x(x>0) \end{cases}$
[ReLU Function]

1-2. 신경망

1-2-1. 활성화 함수로서의 선형 함수와 비선형 함수

선형 함수를 활성화 함수로 사용하면 층을 깊게 하는 이점을 살릴 수 없다. 아래와 같은 함수가 있다고 가정해보자.
$h(x)=ax$
위 함수를 활성화 함수로 하여 3층 네트워크를 구성하면, 아래와 같은 식이 될 것이다.
$h(h(h(x))) = a^3x$
이것은 본래의 형태인 $h(x)=ax$
$h(x)=cx$
즉, 선형 함수를 활성화 함수로 사용한 네트워크는 단층으로도 표현할 수 있다. 다시 말해, 층을 쌓는 이점을 살리려면 비선형 함수를 사용해야 한다는 것이다.

1-2-2. 행렬을 이용한 신경망 구현

참고: https://velog.io/@developerkerry/3층-신경망-구현하기

참고 포스트에서 3층 신경망을 구현한 적 있다. 행렬 없이 위와 같은 신경망을 구현하려면 엄청난 노가다가 필요할 것이다. 하지만, np.array로 행렬을 만들고, np.dot() 함수로 행렬곱을 수행하면 위 그림과 같은 신경망을 코드 몇 줄로 구현할 수 있다.

입력은 $x_n$

여기서 $a_1^{(1)}$
$a_1^{(1)} = w_{11}^{(1)}x_1+w_{12}^{(1)}x_2+b_1^{(1)}$
여기에서, 행렬곱을 도입하면, 0층에서 1층으로 향하는 모든 신호를 다음 식처럼 간소화할 수 있다.
$A^{(1)}=XW^{(1)}+B^{(1)}$
이때 행렬 $A^{(1)}$
$A^{(1)}=\left[ \begin{matrix} a^{(1)}_1&a^{(1)}_2&a^{(1)}_3 \end{matrix} \right]$ $X=\left[\begin{matrix} x_1 & x_2 \end{matrix} \right]$ $B^{(1)}=\left[\begin{matrix} b^{(1)}_1&b^{(1)}_2&b^{(1)}_3 \end{matrix} \right]$ $W^{(1)}=\left[\begin{matrix} w^{(1)}_{11}&w^{(1)}_{21}&w^{(1)}_{31}\\ w^{(1)}_{12}&w^{(1)}_{22}&w^{(1)}_{32} \end{matrix} \right]$
위 식의 결과를 활성화 함수에 통과시키면...
$Z^{(1)}=h(XW^{(1)}+B^{(1)})$
1층에서 2층으로 넘어가는 신호는 아래처럼 나타낼 수 있다.
$W^{(2)}=\left[\begin{matrix}w^{(2)}_{11}&w^{(2)}_{21}\\w^{(2)}_{12}&w^{(2)}_{22}\\w^{(2)}_{13}&w^{(2)}_{23} \end{matrix}\right]$ $B^{(2)}=\left[\begin{matrix}b^{(2)}_1&b^{(2)}_2 \end{matrix}\right]$ $A^{(2)}=Z^{(1)}W^{(2)}+B^{(2)}\\ Z^{(2)}=h(A^{(2)})$
마지막으로 2층에서 3층으로 가는 신호는...
$W^{(3)}=\left[\begin{matrix}w^{(3)}_{11}&w^{(3)}_{21}\\w^{(3)}_{12}&w^{(3)}_{22}\end{matrix}\right]$ $B^{(3)}=\left[\begin{matrix}b^{(3)}_1&b^{(3)}_2\end{matrix}\right]$ $A^{(3)}=Z^{(2)}W^{(3)}+B^{(3)}\\ y=h(A^{(3)})$
1-2-3. 신경망 입력층 설계

신경망에서의 입력층의 뉴런 개수는 입력 데이터의 원소 수만큼 만들어줘야 한다. 예를 들어, MNIST 데이터셋의 손글씨 이미지의 경우 28px * 28px이므로, 28 * 28 = 784개의 입력층 뉴런이 필요하다.

1-2-4. 신경망 출력층 설계

출력층의 뉴런 개수는 입력에 대한 출력의 개수만큼으로 설정해 줘야 한다.

예를 들어, 주어진 입력에 따라 어떤 하나의 값을 예측하는 회귀 모델인 경우 출력층에 한 개의 뉴런을 둬야 한다. 만약 어떤 이미지에 쓰인 글씨가 0~9중 어떤 숫자인지 분류하는 모델이라면 출력층에 10개의 뉴런을 둬야 한다. 즉, 분류하려는 Class의 수와 출력층 뉴런의 수를 같게 설정해야 한다.

출력층의 뉴런에는 은닉층과는 다른 활성화 함수를 이용하는 것이 일반적이다.

회귀 모델의 출력층에는 항등 함수를 쓴다. 항등 함수란, 입력을 그대로 출력으로 내놓는 함수이다.

의사 코드로 나타내자면, 아래와 같다.

y = predict(network, x)

혹은

def identity_func(x): return x ... y = identity_func(predict(network, x))

항등 함수는 아래 수식처럼 나타낼 수 있다.
$h(x)=x$
만약 2 Class 분류 문제라면 Sigmoid 함수를 출력층의 활성화 함수로 사용한다.
$h(k)={e^{a_k}\over{\displaystyle\sum^n_{i=1}e^{a_i}}}$
def softmax_func(x): exp_x = np.exp(x) sum_exp_x = np.sum(exp_x) return exp_x / sum_exp_x

[Softmax Function]

다중 클래스 분류 문제라면 Softmax 함수를 출력층의 활성화 함수로 사용한다.

1-2-5. Softmax Function

Softmax 함수는 다음과 같은 특징이 있다.

출력층에 적용된 Softmax 함수의 출력은 출력층 전체에 입력되는 모든 값에 영향을 받는다.

Softmax 함수가 적용된 Array는 모든 원소의 합이 1이다.

따라서 각 원소의 값을 '입력이 해당 인덱스에 대응하는 클래스일 확률'로 해석할 수 있다.

입력의 대소관계가 곧 출력의 대소관계이다.

그러나 Softmax 함수에는 치명적인 단점이 있는데, 바로 지수 함수라는 점이다. 지수 함수는 입력에 따른 결괏값이 기하급수적으로 커진다. 즉, 컴퓨터로 계산 시에 오버플로우가 날 가능성이 크다. 그래서 원래의 Softmax 함수를 약간 변형해서 사용하곤 한다.
$h(k)={e^{a_k}\over\displaystyle\sum^n_{i=1}a^i}$ $={Ce^{a_k}\over{C\displaystyle\sum^n_{i=1}a^i}}$ $={e^{a_k+\log C}\over\displaystyle\sum^n_{i=1}a^{i+\log C}}$ $={e^{a_k+C'}\over{\displaystyle\sum_{i=1}^ne^{i+C'}}}$
위 식을 통해 $e$

이를 Python으로 구현해보면 아래와 같다.

def softmax_func(x): max_x = np.max(x) exp_x = np.exp(x - max_x) sum_exp_x = np.sum(exp_x) return exp_x / sum_exp_x

1-2-6. 배치 처리

참고: https://velog.io/@developerkerry/배치-처리

처음으로 구현한 MNIST 손글씨 숫자 인식 모델의 경우, 아래와 같이 행렬곱이 수행되었다.
$(1, 784) * (784, 50) * (50, 100) * (100, 10) = (1, 10)$
그러나 이런 방식을 그대로 코드로 구현해 사용하면 이미지 데이터 한 장을 불러와 CPU에 넘겨주고, 연산을 수행하는 일련의 과정이 반복된다.

MNIST 손글씨 숫자 인식 모델의 경우에는 1) 데이터 수가 그리 많지 않고, 2) 신경망의 크기가 크지 않아 데이터 I/O Latency에 의한 유휴 시간이 있어도 금방 1만 장의 Test data prediction이 완료되었다.

그러나 모델이 크고, 복잡하고, 데이터의 수가 많은 경우 I/O Latency가 쌓여서 학습 속도나 추론 속도가 크게 느려지는 일이 발생한다. 그래서 한 번에 여러 개의 데이터를 묶어서 신경망에 넘겨서 학습/추론을 하도록 하는데, 이때 이 데이터의 묶음을 배치(batch)라고 한다.

배치의 크기, 즉 배치 사이즈는 Hyper Parameter로서 사람이 직접 적절한 값을 줘야 한다. 배치를 적절히 활용하면 I/O Latency를 줄여 신경망의 학습 및 추론 속도를 크게 높일 수 있다.

1-2-7. 정규화와 전처리

참고: https://velog.io/@developerkerry/신경망으로-손글씨-숫자-인식하기

정규화(normalization)란 어떤 데이터의 요소들을 일정 범위의 값으로 변환하는 것을 말한다. 참고 포스트에서는 원래 0~255 범위이던 MNIST 손글씨 숫자 이미지의 각 픽셀 값을 0.0~1.0 사이로 정규화 했다.

이처럼 데이터를 정규화 하는 등 신경망 학습/추론에 앞서 데이터를 적절히 변환하거나 어떤 처리를 가하는 것을 데이터 전처리(Data Preprocessing)라고 한다. 참고 포스트에서는 데이터 전처리로 정규화를 수행한 것이다.

Author And Source
이 문제에 관하여(중간 정리 : 신경망의 순전파), 우리는 이곳에서 더 많은 자료를 발견하고 링크를 클릭하여 보았다 https://velog.io/@developerkerry/중간-정리-신경망의-순전파

저자 귀속: 원작자 정보가 원작자 URL에 포함되어 있으며 저작권은 원작자 소유입니다.

우수한 개발자 콘텐츠 발견에 전념 (Collection and Share based on the CC Protocol.)

SpringMvc 차단기 데이터 반환 문제 해결

자바의 정석 Chapter 07 객체 지향 프로그래밍 Ⅱ - 06. 추상 클래스편

좋은 웹페이지 즐겨찾기

개발자 우수 사이트 수집
개발자가 알아야 할 필수 사이트 100선 추천 우리는 당신을 위해 100개의 자주 사용하는 개발자 학습 사이트를 정리했습니다

관련 게시물

신경망으로 회귀를 하고 신장 +3 사이즈로 섹시 여배우의 컵수를 추정

마지막 계속됩니다. 전회는 NN로 분류를 실시해 추정시키고 있었습니다만, 정밀도가 나빴기 때문에, 이번은 회귀로 추정을 실시했습니다. 전회와 같습니다. 전회 및 선행 연구와 같습니다. ※ 선행 연구 ... 덧붙여서, cup에서 cup num을 낳는 가공을 실시해, 이하와 같은 데이터로 하고 있습니다. (실은 전회도입니다만) code 학습은 4층 신경망에서 실시합니다. 복잡한 모델이 더 적합한...

TeX에서 신경망의 네트워크 다이어그램을 그리는 방법

$\TeX$로 신경망의 네트워크 구성도를 그리는 방법에 대해 정리하고 싶습니다. TikZ라는 $\TeX$용 그리기 패키지를 사용하여 그립니다. 벡터 이미지로서 그려지기 때문에, 확대 축소에 의한 그림의 흐트러짐이 발생하지 않고, 그림내에 있는 문자가 copipe 가능하게 된다고 하는 이점이 있습니다. 또, 상대 위치에 의한 위치의 지정이나 foreach를 사용할 수 있기 때문에(구체예는 이하...

"자동 인코더"로 진화 한 신경망 소개 캡슐 네트워크 같은

오토 엔코더의 인기가 떨어지고 있다! 그래서 오토 엔코더를 사용하여 독자적인 신경망을 만들고 싶습니다. 생각해 낸 것을 씁니다! 음, 옛날부터 알려주세요 ... 우선, 오토 엔코더를 1개 준비합니다. (^^♪ 그림이 나쁘다고! ! (센스가 없구나~~( ´∀｀ )) 그런 것은 아무래도 좋다! 다음에 또 하나 준비합니다. (^^♪ 시계열도 붙여 갑니다. 숫자가 젊을수록 최근입니다. 시계열마다 오...

c에서 nn 그 2

c에서 nn 해 보았습니다. sin 문제 해 보았다. 이상....

신경망(AI)은 프라레일 신칸센을 얼마나 분류할 수 있는지 Part.3

이번에는 네트워크에 숨겨진 계층을 추가하고 정답률이 어떻게 변화하는지 실험한다. 숨겨진 층을 1층 추가하는 효과를 측정한다 또한 뉴런 수의 차이가 결과에 어떻게 영향을 미치는지 측정합니다. 추가하는 숨겨진 층의 뉴런 수는 32, 128, 512의 3종류 숨겨진 레이어 0 그래프는 이전 숨겨진 레이어가없는 실험 데이터입니다. 은닉층을 추가한 네트워크는 모두 정답률이 향상되고, 또한 수렴에 필요...

신경망(AI)은 프라레일 신칸센을 얼마나 분류할 수 있는지 Part.1

공부를 겸해, 실제로 신경망으로 다치 분류를 해 보고 싶다! 하지만 MNIST는 이미 좋다, 다른 소재로 하고 싶다! 하지만 이미지는 어떻게 모을까? 촬영한다고 해도 매수 있구나···아, iPhone의 연사 기능 잡으면 좋잖아! E5계(하야부사) E6계(코마치) E7계 (카가야키) 신칸센 이외의 플라레일은 신칸센과 크게 형상이 되기 때문에, 문제로서 재미있지 않을까, 라고 생각하지 않았다. ...

Layer-wise Relevance Propagation을 Chainer에서 구현

원논문은 로, 자세한 것은 이하 참조. 나는 LRP를 일단 데이터를 순 전파시켜, 출력층으로부터 각 층의 출력과 가중치를 바탕으로 공헌도를 구해 가는 수법 라고 이해합니다. 국산 신경망을 위한 프레임워크입니다. 일단, 순전파시키면 데이터가 수주 연결되어 남기 때문에, 개인적으로는 사용하기 쉽고 좋아합니다. Chainer는 한번, 순전파시키면 데이터와 생성된 레이어의 종류를 참조할 수 있으므로...

4 계층 DNN에서 1 변수 함수 근사

Chainer의 Optimizer까지를 이해하기 위해, 을 참고로, 4층 DNN에서 1 변수 함수 근사의 프로그램을 썼습니다. 이 프로그램은 왠지 Chain을 상속한 call 함수로 forward 계산을 하지 않았기 때문에, 이것을 수정하는 것을 정진으로 했습니다. 내가 고친 프로그램은 내 에 넣었습니다. sin, exp, sqrt, abs, sqrt(abs(sin(exp(x)))) 를 시도...

Chainer의 Hello World!

은 Preferred Networks에서 제공하는 신경망을 위한 기계 학습 프레임워크입니다. 실제로는 기계 학습 일반적으로 범용적으로 사용할 수 있습니다. 넷에서 보이는 샘플은 복잡한 신경망을 사용한 것이 많기 때문에, 우선 Hello World! Chainer를 기계 학습에 사용하는 것에 관심이 있습니다 Python에 대한 기본 지식이 있습니다 함수 최소화 기법에 대한 기초 지식이 있습니다...