심층 학습/WaveNet

2175 단어 WaveNet심층 학습

1. 소개



text-to-speech (TTS)라는 문장에서 자연스러운 음성을 생성하는 분야가 있습니다. 이 분야에는, 이전부터, 2개의 방법이 있었습니다만, 각각 문제점을 안고 있었습니다.

하나는 "파형 연결"이라는 한 화자의 짧은 음절 세트에서 필요한 것을 결합하고 합성하는 방법이지만,이 방법은 목소리를 바꾸거나 억양과 감정을 추가하기 어렵다 라는 문제가 있었습니다.

또 하나는, 「파라메트릭」이라고 하는 말하는 내용이나 특징(목소리, 억양 등)을 입력에 의해 조작할 수 있는 방법입니다만, 이것은 음성 품질에 문제가 있었습니다.

WaveNet은 이것들을 해결하는 방법으로 음악에도 응용할 수 있는 것입니다. 

2.Dilated Convolution



음성신호는, 통상 샘플링 주파수가 16kHz로, 초당 16,000 샘플의 시계열 데이터가 있기 때문에, 자기 회귀 모델로 취급하는 것은 매우 어렵습니다. 그래서 WaveNet은 dilated convolution이라는 구조를 사용하여 수용야가 넓어지도록 CNN을 구축하여 이 문제를 해결하고 있습니다.



Dilated convolution 은 계층이 깊어짐에 따라 컨볼루션 노드를 지수함수적으로 떼어내어 수용 필드(시계열 과거 데이터를 어느 정도 참고로 할 것인가)를 펼친 상태에서 컨벌루션을 하는 연산입니다. 또한 온라인 사용을 고려하여 미래의 데이터를 컨볼루션하지 않도록 시계열을 이동시키고 있습니다.

3. 아키텍처





이것이 WaveNet의 아키텍처입니다. 잔차 블록과 스킵 접속을 채용하고 있습니다.

활성화 함수는 GTU(gated tanh unit)를 채용하고 있습니다. GTU는 음성 신호에 대해 자주 사용되는 ReLU보다 잘 작동한다고 합니다.

일반 음성 신호는 16bit의 정수값(0-65535)으로 저장되어 있습니다만, WaveNet에서는 계산 부하를 줄이기 위해 softmax에서 256 클래스의 카테고리 변수로 변환하여 생성하는 음성이 어느 클래스에 속하는지의 분류 문제로 생성 음성을 예측하고 있습니다.

WaveNet의 확률 분포는, 과거의 시계열 데이터에 가세해, 부가 정보 h도 조건으로서 가지고 있습니다. h에는 텍스트(내용)나 화자의 정보(목소리)를 포함할 수 있으며, 이에 따라 WaveNet은 “부가 정보: h”의 정보를 지정한”출력 파형: x”의 확률 분포를 계산할 수 있다. 수 있습니다.



4. 평가



TTS에는 MOS(Mean Opinion Scores)라고 하는 인간의 말하는 방법과의 갭을 계측하는 객관적인 평가 방법이 있으며, 그 평가 결과는 종래의 방법에 비해 사람의 말하는 방법과의 갭을 50% 이상 축소에 성공했습니다.

좋은 웹페이지 즐겨찾기