【논문 시리즈】 다어휘 음성 인식에 응용되는 심층 텐서 NN

원문



The Deep Tensor Neural Network With Applications to Large Vocabulary Speech Recognition Dong Yu, Senior Member, IEEE, LiDeng, Fellow, IEEE, and Frank Seide, Member, IEEE (2013)

1. 요약/배경


  • 논문(Context-dependent pre-trained deep neural networks for large-vocabulary speech recognition)에서 제창한 모델을 발전시킨 것.
  • DNN 모델에서 텐서 공간을 도입했다. 입력 벡터는 두 개의 서브 공간에 투사됩니다. 공간 사이에서 상호 작용을 일으켜 다음 층으로 더 추출 된 특징을 전달합니다.

  • 2. 골자의 이론





    이것은 숨겨진 레이어의 2 공간화 (DP = Double Projection)의 개략도입니다. DP는 각 층에서 실행 가능하다.
    (b)의 패턴은 2 개의 투사 공간 각각으로부터 출력층으로 인도되고, 출력층 u는 텐서가된다.
    (c)의 패턴에서, 두 투사 공간으로부터의 출력은 크로네커 곱으로 통합되어 다음 입력층으로 전달된다. (c)의 패턴이 BP의 계산이 용이하다.

    음성 인식의 경우, 하나의 공간에 「음성 검출」, 또 하나에 「음파 스펙트럼의 패턴」이라고 하는 구분을 할 수 있다.

    하층의 공간의 성질에 의해, 출력과 다음의 입력의 계산 형식이 결정된다(아래 표).



    클래스 분류의 경우, 예와 다르게 교차 엔트로피 오차 함수의 극값을 구하는 알고리즘으로 평가된다.
    \bar{D} = \frac{1}{N}\sum_{x}D(x) = \frac{1}{N}\sum_{x}\sum_{y}\bar{p}(y|x)\log p(y|x)
    

    차이는 파라미터의 극값을 결정하는 단계에 있습니다.
    예는 l + 1 층에서 l 층으로의 BP의 공식을 포함한다.
    제 2 공간에 제 1 공간 고유의 행렬 $I(k1)$ 를 곱한다 (역도 마찬가지).
    \frac{\partial (v^{l+1})^T}{\partial h_1^{l}} = \frac{ \partial {\large(}{\large(}h_2^{l}\otimes I_{K_1^l}{\large)}h_1^{l}{\large)}^T} {\partial h_1^{l}} = (h_2^{l})^T \otimes I_{K_1^{l}} \\
    \frac{\partial (v^{l+1})^T}{\partial h_2^{l}} = \frac{ \partial {\large(}{\large(}I_{K_2^l}\otimes h_1^{l}{\large)}h_2^{l}{\large)}^{T}} 
    {\partial h_2^{l}} = I_{K_2^{l}} \otimes (h_1^{l})^T
    
    

    3. 모델 적용 예



    SWB-30hr 태스크라고 불리는 음성 데이터의 테스트 세트로 음성 인식 테스트를 실시했다. (아래 표는 결과)
    전 모델 CD-DNN-HMM의 오차율이 28.3%였던 반면 2중 투사의 경우에는 27%까지 개선했다.
    (가장 복잡한 모델은 2000 유닛의 숨겨진 층이 4층, 96X96의 투사층이 1층의 모델이다.)

    좋은 웹페이지 즐겨찾기