[논문 시리즈] 새로운 RNN의 학습 방법(Hessian Free 및 RBM 사용)

원문


학습 RNN
Ilya Sutskever (2013)

1. 요약 / 배경


새로운 RNN 학습 방법으로
① RBM 사용 방법
② 탈청색(Hessian-free) 최적화
의 건의.
② 장기 시퀀스에 대한 예측은 이미 알고 있다.
작성자는 이 방법을 단어 수준이 아닌 문자열 수준의 NLP에 적용합니다.

2. 뼈 이론


(1)Temporal RBM


RBM 모델은 시퀀스 데이터에 적용되는 모델입니다.
시리즈 $t$의 표시 변수와 숨김 변수는 각각 $t-1$이전의 표시 변수와 숨김 변수의 영향을 받는 모델입니다.

시리즈 $m$이전에 영향이 있을 때, 볼레즈만 분포
P(v_t,h_t|v_{t-m}^{t-1},h_{t-m}^{t-1}) = \frac{\exp(h_t{}^T\mbox{W}v_t + B_v(v_{t-m}^{t-1}){}^Tv_t + B_h(v_{t-m}^{t-1},h_{t-m}^{t-1}){}^Th_t)}{Z(v_{t-m}^{t-1},h_{t-m}^{t-1})}
샘플링 기간 동안 $m$시퀀스 이전의 변수가 영향을 받습니다.
샘플링(필터)의 확률 분포를 바탕으로 다음과 같이 신호가 비슷하다.
P(h_{t,i} = 1|v_{1}^{t},h_{1}^{t-1}) = \mbox{sigmoid}\big((\mbox{W}v_t)_i + B_h (v_{t-m}^{t-1},h_{t-m}^{t-1})\big)
학습은 대수를 최소화하는 방식으로 진행되고 일반적인 샘플링된 변수 그룹의 기대치의 차이에 따라 진행된다.
그러나 이번에는 시리즈 모델로 과거 시리즈에 영향을 받지 않은 시리즈($Q_1$)와 $m$회 전에 영향을 받은 시리즈($Q_2$)의 기대치 차이에 따라 업데이트가 결정됩니다.
\Delta \mbox{W} \propto {\bf E}_{Q_1}\big[ h_tv_t{}^T\big] - {\bf E}_{Q_2^t}\big[ h_tv_t{}^T\big] \\
\Delta \mbox{W}_n \propto {\bf E}_{Q_1}\big[ (h_t - {\bf E}_{Q_2^t}[ h_t])v_{t-n}{}^T\big] \\
\Delta \mbox{W}_n' \propto {\bf E}_{Q_1}\big[ (h_t - {\bf E}_{Q_2^t}[ h_t])h_{t-n}{}^T\big] \\
\Delta \mbox{A}_n \propto {\bf E}_{Q_1}\big[ (v_t - {\bf E}_{Q_2^t}[ v_t])v_{t-n}{}^T\big] \\
Q_2^t(v_{1}^{t},h_{1}^{t}) = P(v_t,h_t|v_{t-m}^{t-1},h_{t-m}^{t-1})Q_1(v_{1}^{t-1},h_{1}^{t-1})

(2)RTRBM


귀속 TRBM은 피드백의 영향을 받는 TRBM입니다.
즉, 같은 계열의 가시 변수를 샘플링할 때 이전의 숨겨진 변수를 제외하고 같은 계열의 숨겨진 변수의 영향을 받는다.Motion Capture와 같은 애니메이션 인식에서 강력한 성능을 발휘합니다.

(3) 탈시안 최적화


청산염 제거 최적화는 뉴턴법(계단하강법=GD 대체)을 대규모로 응용하는 계산 방법이다.LSTM에서 문제가 되는 장기 시퀀스 의존성 문제를 제거하여 장기 스토리지를 개선할 수 있습니다.
모두가 알다시피 GD는 악곡률이 있는 목적 함수와 상용되지 않는다.(비탈이 사라지는 문제는 그 예이다)
뉴턴법은 그것의 나쁜 점이 없다.
하지만 계산이 느린 단점이 있어 그 방법에 따라 적용 가능성이 커진다.
매개변수 $θn+1$를 업데이트할 때 대상 함수를 보조 대상 함수 $M$와 정규화 항목 $R$로 분해합니다.
q_{\theta_n}(\theta) \equiv M_{\theta_n}(\theta) + \lambda R_{\theta_n}(\theta)
2차 뉴턴법을 통해 부목적 함수는 다음과 비슷하다.
M_{\theta_n}(\theta) = f(\theta_n) + f'(\theta_n){}^T \delta_n + \frac{\delta_n{}^T C_n \delta_n}{2}
$C_n$는 목표 함수 $f$의 곡률에 대한 근사항입니다.

3. 모델 적용 예


언어 모델에 HF-RNN 적용


Multiplicative RNN이라는 모델을 구축했고 RNN은 문자 단위의 언어 예측 모델을 구축했다.
(N-gram 및 단어 벡터 레벨보다 한 단계 앞선 시스템)

좋은 웹페이지 즐겨찾기