【논문 시리즈】음성 인식의 심층 학습 이론(DBN+HMM)

원문



다중 어휘 음성 인식을 위한 문맥 의존적이고 사전 학습된 심층 신경망 George E. Dahl, Dong Yu, Senior Member, IEEE, Li Deng, Fellow, IEEE, and Alex Acero, Fellow, IEEE (2012)

1. 요약/배경


  • 다어휘 음성 인식에 있어서, DBN(Deep Belief Network)에 의한 사전 학습과 숨겨진 마르코프 모델을 조합한 학습기를 개발했다.
  • 본고 발표 전까지의 주류는 혼합 가우스 모델을 사전 학습에 이용하는 스타일이었지만 그것을 DBN으로 대체했다. DBN은 사전 학습에만 사용하는 점도 특징이다.

  • 2. 골자의 이론



    (1) DBN에 의한 사전 학습



    적층 RBM의 학습으로 표현한다. 음성 데이터는 실수 연속 값을 취하기 때문에 Gaussian RBM을 사용합니다.
    P({\bf v}|{\bf h}) = N({\bf v}; {\bf b} + {\bf h}^T{\bf W}^T, I)
    

    (2) HMM에 의한 신호의 배열 예측



    (1)의 사전 학습으로 추출된 특징량은 반복적으로 상기된 확률 모델에 적용된다(Generative Model; 생성 모델). 적용된 확률 분포 중 우도가 좋은 것은 학습 결과에 의해 결정됩니다.
    확률 분포의 유형은 숨겨진 마르코프 모델에 기초한다.

    HMM으로 표현하고 있는 것은, 3음소(Senone)가 「어떤 천이 확률」로 제어되어 변이하는 거동이다.

    true가 좋을 때의 파라미터 w가 새로운 파라미터로서 갱신된다;
    \hat w = \arg\max_w p(w|{\bf x}) = \arg\max_w p({\bf x}|w)p(w)/p({\bf x})
    



    3. 모델 적용 예



    5층의 숨겨진 층 2000개 이상의 유닛을 갖춘 DNN과 GMM에 의한 성능의 차이를 확인했다.



    눈부신 변화가 있다고는 말할 수 없지만, 약간의 변화는 인정되었다.
    과제는 계산 시간이다.
    병렬 처리가 어려운 구조이기 때문에 시간 절약화가 어렵다.

    좋은 웹페이지 즐겨찾기