래빗 챌린지 - 심층 학습 Day3 Section3 GRU
0. 개요
본 기사는 일본 딥 러닝 협회 인정의 강좌 프로그램인 「래빗 챌린지」가 제공하고 있는 과목의 하나인 심층 학습의 리포트이다.
기사 타이틀에 기재된 대로, Day3 Section3 GRU에 대해서 이하에 정리한다.
1. GRU(Gated Recurrent Unit)
LSTM은 파라미터가 많고, 계산 부하가 높아지는 문제가 있었지만, GRU에서는 구조를 바꾸는 것으로 파라미터를 삭감해, 태스크에 따라서는 정밀도도 같거나 그 이상을 바랄 수 있게 되었다.
이른바 LSTM을 간이화한 것.
위와 같이 계산 부하가 LSTM보다 낮습니다.
또한 단순화 된 것이지만 반드시 LSTM보다 떨어지는 것은 아니다.
지금까지도 최적화 수법이나 초기화 등을 통해 느껴 왔지만, 어떠한 수법도 결국은 하고 싶은 태스크에 맞는지에 따라 좋고 나쁜 것은 바뀐다.
구조는 아래 사이트를 참조. 구조와 함께 수식이나 소스를 비교하면 그리 복잡하지 않다는 것을 알 수 있다.
참고:
h tps://아. 비파 pyu s. jp / 데에 p-아 r 마인 g / r / g. HTML
htps : // 아기로보 ts. 코 m / lstmg 루엔 t 란세의 후 r 뮤 /
https://ko.wikipedia.org/wiki/게이트가 있는 회귀형 유닛
1.1. 리셋 게이트
과거의 정보를 유지할 것인지 망각시킬 것인지를 결정한다.
LSTM에서 말하는 망각 게이트에 해당한다.
r=\sigma(W_{r}h_{t-1}+U_{r}x_{t})
1.2. 업데이트 게이트
과거의 정보를 얼마나 캡처하는지를 결정한다.
z=\sigma(W_{z}h_{t-1}+U_{z}x_{t})
1.3. 출력
c=tanh(W_{c}(h_{t-1}\otimes r)+U_{c}x_{t})
h_{t}=((1-z)\otimes h_{t-1})\oplus(z\otimes c)
2. 확인 테스트
2.1. 확인 테스트 1
LSTM과 CEC가 안고 있는 과제에 대해서, 각각 간결하게 말해라.
답변:
LSTM: 파라미터가 많기 때문에 계산 부하가 크다.
CEC: 가중치가 일률적으로 되어 학습을 할 수 없다. 과거의 정보가 불필요해져도 계속 남는다. 임의의 타이밍에서 전파나 망각을 할 수 없다.
2.2. 확인 테스트 2
LSTM과 GRU의 차이점을 간결하게 말해라.
답변:
LSTM:
· 입력 게이트, 출력 게이트, 망각 게이트의 3개의 게이트가 있다.
· 게이트도 많기 때문에 그만큼 파라미터 수도 많다.
GRU:
・리셋 게이트, 갱신 게이트의 2개의 게이트가 있다.
・LSTM을 말하면 간이화한 것이기 때문에, 파라미터수는 적게 되어 있다.
3. 연습 챌린지
3.1. GRU
def gru(x, h, W_r, U_r, W_z, U_z, W, U):
# リセットゲート
r = _sigmoid(x.dot(W_r.T) + h.dot(U_r.T))
# 更新ゲート
z = _sigmoid(x.dot(W_z.T) + h.dot(U_z.T))
# 仮h
h_bar = np.tanh(x.dot(W.T) + (r * h).dot(U.T))
# h_{t}
h_new = (1 - z) * h + z * h_bar
return h_new
LSTM과 마찬가지로 순전파의 계산은 개요도와 함께 확인하면 개별 계산은 간단하다는 것을 알 수 있다.
X. 래빗 챌린지란?
래빗 챌린지란, 일본 딥 러닝 협회 인정의 강좌 프로그램의 하나.
E 자격을 수험하기 위해서는 이 래빗 챌린지 등, 어느 하나의 강좌 프로그램을 수료해야 한다.
래빗 챌린지의 특징은 '현장에서 파괴가 효과가 있는 딥 러닝 강좌'의 통학 강좌 녹화 비디오를 편집한 교재를 사용한 자습 스타일이라는 점.
서포트는 다른 강좌보다 적고, 수신이 아니라 자주적으로 배워가는 자세가 아니면 진행되지 않지만, 그만큼, 다른 강좌에 비하면 저렴하고, 손이 내기 쉽다.
어느 정도 지식이 있는 사람, 자력으로 노력하겠다는 녀석이 있는 사람을 위한 것이 아닐까 느낀다.
Reference
이 문제에 관하여(래빗 챌린지 - 심층 학습 Day3 Section3 GRU), 우리는 이곳에서 더 많은 자료를 발견하고 링크를 클릭하여 보았다
https://qiita.com/Helvetica822/items/042fae217e1f83006243
텍스트를 자유롭게 공유하거나 복사할 수 있습니다.하지만 이 문서의 URL은 참조 URL로 남겨 두십시오.
우수한 개발자 콘텐츠 발견에 전념
(Collection and Share based on the CC Protocol.)
LSTM은 파라미터가 많고, 계산 부하가 높아지는 문제가 있었지만, GRU에서는 구조를 바꾸는 것으로 파라미터를 삭감해, 태스크에 따라서는 정밀도도 같거나 그 이상을 바랄 수 있게 되었다.
이른바 LSTM을 간이화한 것.
위와 같이 계산 부하가 LSTM보다 낮습니다.
또한 단순화 된 것이지만 반드시 LSTM보다 떨어지는 것은 아니다.
지금까지도 최적화 수법이나 초기화 등을 통해 느껴 왔지만, 어떠한 수법도 결국은 하고 싶은 태스크에 맞는지에 따라 좋고 나쁜 것은 바뀐다.
구조는 아래 사이트를 참조. 구조와 함께 수식이나 소스를 비교하면 그리 복잡하지 않다는 것을 알 수 있다.
참고:
h tps://아. 비파 pyu s. jp / 데에 p-아 r 마인 g / r / g. HTML
htps : // 아기로보 ts. 코 m / lstmg 루엔 t 란세의 후 r 뮤 /
https://ko.wikipedia.org/wiki/게이트가 있는 회귀형 유닛
1.1. 리셋 게이트
과거의 정보를 유지할 것인지 망각시킬 것인지를 결정한다.
LSTM에서 말하는 망각 게이트에 해당한다.
r=\sigma(W_{r}h_{t-1}+U_{r}x_{t})
1.2. 업데이트 게이트
과거의 정보를 얼마나 캡처하는지를 결정한다.
z=\sigma(W_{z}h_{t-1}+U_{z}x_{t})
1.3. 출력
c=tanh(W_{c}(h_{t-1}\otimes r)+U_{c}x_{t})
h_{t}=((1-z)\otimes h_{t-1})\oplus(z\otimes c)
2. 확인 테스트
2.1. 확인 테스트 1
LSTM과 CEC가 안고 있는 과제에 대해서, 각각 간결하게 말해라.
답변:
LSTM: 파라미터가 많기 때문에 계산 부하가 크다.
CEC: 가중치가 일률적으로 되어 학습을 할 수 없다. 과거의 정보가 불필요해져도 계속 남는다. 임의의 타이밍에서 전파나 망각을 할 수 없다.
2.2. 확인 테스트 2
LSTM과 GRU의 차이점을 간결하게 말해라.
답변:
LSTM:
· 입력 게이트, 출력 게이트, 망각 게이트의 3개의 게이트가 있다.
· 게이트도 많기 때문에 그만큼 파라미터 수도 많다.
GRU:
・리셋 게이트, 갱신 게이트의 2개의 게이트가 있다.
・LSTM을 말하면 간이화한 것이기 때문에, 파라미터수는 적게 되어 있다.
3. 연습 챌린지
3.1. GRU
def gru(x, h, W_r, U_r, W_z, U_z, W, U):
# リセットゲート
r = _sigmoid(x.dot(W_r.T) + h.dot(U_r.T))
# 更新ゲート
z = _sigmoid(x.dot(W_z.T) + h.dot(U_z.T))
# 仮h
h_bar = np.tanh(x.dot(W.T) + (r * h).dot(U.T))
# h_{t}
h_new = (1 - z) * h + z * h_bar
return h_new
LSTM과 마찬가지로 순전파의 계산은 개요도와 함께 확인하면 개별 계산은 간단하다는 것을 알 수 있다.
X. 래빗 챌린지란?
래빗 챌린지란, 일본 딥 러닝 협회 인정의 강좌 프로그램의 하나.
E 자격을 수험하기 위해서는 이 래빗 챌린지 등, 어느 하나의 강좌 프로그램을 수료해야 한다.
래빗 챌린지의 특징은 '현장에서 파괴가 효과가 있는 딥 러닝 강좌'의 통학 강좌 녹화 비디오를 편집한 교재를 사용한 자습 스타일이라는 점.
서포트는 다른 강좌보다 적고, 수신이 아니라 자주적으로 배워가는 자세가 아니면 진행되지 않지만, 그만큼, 다른 강좌에 비하면 저렴하고, 손이 내기 쉽다.
어느 정도 지식이 있는 사람, 자력으로 노력하겠다는 녀석이 있는 사람을 위한 것이 아닐까 느낀다.
Reference
이 문제에 관하여(래빗 챌린지 - 심층 학습 Day3 Section3 GRU), 우리는 이곳에서 더 많은 자료를 발견하고 링크를 클릭하여 보았다
https://qiita.com/Helvetica822/items/042fae217e1f83006243
텍스트를 자유롭게 공유하거나 복사할 수 있습니다.하지만 이 문서의 URL은 참조 URL로 남겨 두십시오.
우수한 개발자 콘텐츠 발견에 전념
(Collection and Share based on the CC Protocol.)
3.1. GRU
def gru(x, h, W_r, U_r, W_z, U_z, W, U):
# リセットゲート
r = _sigmoid(x.dot(W_r.T) + h.dot(U_r.T))
# 更新ゲート
z = _sigmoid(x.dot(W_z.T) + h.dot(U_z.T))
# 仮h
h_bar = np.tanh(x.dot(W.T) + (r * h).dot(U.T))
# h_{t}
h_new = (1 - z) * h + z * h_bar
return h_new
LSTM과 마찬가지로 순전파의 계산은 개요도와 함께 확인하면 개별 계산은 간단하다는 것을 알 수 있다.
X. 래빗 챌린지란?
래빗 챌린지란, 일본 딥 러닝 협회 인정의 강좌 프로그램의 하나.
E 자격을 수험하기 위해서는 이 래빗 챌린지 등, 어느 하나의 강좌 프로그램을 수료해야 한다.
래빗 챌린지의 특징은 '현장에서 파괴가 효과가 있는 딥 러닝 강좌'의 통학 강좌 녹화 비디오를 편집한 교재를 사용한 자습 스타일이라는 점.
서포트는 다른 강좌보다 적고, 수신이 아니라 자주적으로 배워가는 자세가 아니면 진행되지 않지만, 그만큼, 다른 강좌에 비하면 저렴하고, 손이 내기 쉽다.
어느 정도 지식이 있는 사람, 자력으로 노력하겠다는 녀석이 있는 사람을 위한 것이 아닐까 느낀다.
Reference
이 문제에 관하여(래빗 챌린지 - 심층 학습 Day3 Section3 GRU), 우리는 이곳에서 더 많은 자료를 발견하고 링크를 클릭하여 보았다
https://qiita.com/Helvetica822/items/042fae217e1f83006243
텍스트를 자유롭게 공유하거나 복사할 수 있습니다.하지만 이 문서의 URL은 참조 URL로 남겨 두십시오.
우수한 개발자 콘텐츠 발견에 전념
(Collection and Share based on the CC Protocol.)
Reference
이 문제에 관하여(래빗 챌린지 - 심층 학습 Day3 Section3 GRU), 우리는 이곳에서 더 많은 자료를 발견하고 링크를 클릭하여 보았다 https://qiita.com/Helvetica822/items/042fae217e1f83006243텍스트를 자유롭게 공유하거나 복사할 수 있습니다.하지만 이 문서의 URL은 참조 URL로 남겨 두십시오.
우수한 개발자 콘텐츠 발견에 전념 (Collection and Share based on the CC Protocol.)