【논문 시리즈】 다어휘 음성 인식에 응용되는 심층 텐서 NN
2372 단어 심층 학습DeepLearning음성 인식
원문
The Deep Tensor Neural Network With Applications to Large Vocabulary Speech Recognition Dong Yu, Senior Member, IEEE, LiDeng, Fellow, IEEE, and Frank Seide, Member, IEEE (2013)
1. 요약/배경
2. 골자의 이론
이것은 숨겨진 레이어의 2 공간화 (DP = Double Projection)의 개략도입니다. DP는 각 층에서 실행 가능하다.
(b)의 패턴은 2 개의 투사 공간 각각으로부터 출력층으로 인도되고, 출력층 u는 텐서가된다.
(c)의 패턴에서, 두 투사 공간으로부터의 출력은 크로네커 곱으로 통합되어 다음 입력층으로 전달된다. (c)의 패턴이 BP의 계산이 용이하다.
음성 인식의 경우, 하나의 공간에 「음성 검출」, 또 하나에 「음파 스펙트럼의 패턴」이라고 하는 구분을 할 수 있다.
하층의 공간의 성질에 의해, 출력과 다음의 입력의 계산 형식이 결정된다(아래 표).
클래스 분류의 경우, 예와 다르게 교차 엔트로피 오차 함수의 극값을 구하는 알고리즘으로 평가된다.
\bar{D} = \frac{1}{N}\sum_{x}D(x) = \frac{1}{N}\sum_{x}\sum_{y}\bar{p}(y|x)\log p(y|x)
차이는 파라미터의 극값을 결정하는 단계에 있습니다.
예는 l + 1 층에서 l 층으로의 BP의 공식을 포함한다.
제 2 공간에 제 1 공간 고유의 행렬 $I(k1)$ 를 곱한다 (역도 마찬가지).
\frac{\partial (v^{l+1})^T}{\partial h_1^{l}} = \frac{ \partial {\large(}{\large(}h_2^{l}\otimes I_{K_1^l}{\large)}h_1^{l}{\large)}^T} {\partial h_1^{l}} = (h_2^{l})^T \otimes I_{K_1^{l}} \\
\frac{\partial (v^{l+1})^T}{\partial h_2^{l}} = \frac{ \partial {\large(}{\large(}I_{K_2^l}\otimes h_1^{l}{\large)}h_2^{l}{\large)}^{T}}
{\partial h_2^{l}} = I_{K_2^{l}} \otimes (h_1^{l})^T
3. 모델 적용 예
SWB-30hr 태스크라고 불리는 음성 데이터의 테스트 세트로 음성 인식 테스트를 실시했다. (아래 표는 결과)
전 모델 CD-DNN-HMM의 오차율이 28.3%였던 반면 2중 투사의 경우에는 27%까지 개선했다.
(가장 복잡한 모델은 2000 유닛의 숨겨진 층이 4층, 96X96의 투사층이 1층의 모델이다.)
Reference
이 문제에 관하여(【논문 시리즈】 다어휘 음성 인식에 응용되는 심층 텐서 NN), 우리는 이곳에서 더 많은 자료를 발견하고 링크를 클릭하여 보았다 https://qiita.com/To_Murakami/items/770e46c85e47fe2a2448텍스트를 자유롭게 공유하거나 복사할 수 있습니다.하지만 이 문서의 URL은 참조 URL로 남겨 두십시오.
우수한 개발자 콘텐츠 발견에 전념 (Collection and Share based on the CC Protocol.)