『Yukarin 라이브러리』 yukarin, become-yukarin 개요·리포지토리 관계를 정리해 보았다
개요
『누구나 좋아하는 캐릭터의 목소리(Convert your voice to favorite voice)』 yukarin, become-yukarin의 처리 개요·리포지토리 관계를 설명합니다.
이전 방법으로 좋으면 become-yukarin만으로도 음성 변환을 할 수 있습니다. 하지만 이 기사에서는 신기법 yukarin 을 사용해 음성 변환을 한다고 전제하고 있습니다.
yukarin 의 커맨드 해설 기사도 쓸 예정입니다만, 본 기사로 담백하게 이미지를 정리할 수 있으면 좋겠습니다.
(음성에 관해서는 문외한이므로 설명에 오류가 있을지도 모릅니다. 오류 등이 있으면 지적해 주세요)
비고
이미지하기 쉽도록 타겟 음성은 "유즈키 연고"로 합니다
리포지토리 호칭 *1
2019/6 무렵, 리포지토리의 호칭이 바뀌었습니다.
아래의 3개의 호칭은 yukarin, become-yukarin을 가리키고 있다고 생각해 주세요.
1. yukarin, become-yukarin 은 어떻게 하고 있는 거야?
아래의 2단계로 음성 변환을 하고 있습니다. 이것은 yukarin, become-yukarin에서 공통적입니다.
1.1 제1단계: 음향 특징량의 변환
음성을 「기본 주파수」・「스펙트럼 포락」・「비주기성 지표」의 3개로 분해해, 「자성->유카리」에 「조정」하는 것으로, 음성 변환을 합니다.
이 『조정』 부분을 딥 러닝으로 처리하고 있습니다.
다만, 이 방법에서는 고음질화에는 한계가 있다고 하는 것으로, 다음의 제2단 학습으로 고정밀도화를 하고 있는 것 같습니다.
참고 기사
음성 합성 시스템 WORLD를 살펴보기
1.2 2단계: 스펙트로그램 변환
스펙트로 그램을 이미지에 비추어, 「제일 변환 후의 스펙트로 그램」을 바탕으로 「오리지널 연고 음성으로 만든 스펙트로 그램」으로 변환하는 것으로 고음질화를 하고 있는 것 같습니다.
자세한 내용을 모르기 때문에 아래 개발자 블로그를 참조하십시오.
htps : // 히로시바. 기주 b. 이오/bぉg/베카메-유즈키-유카리-우-th에데
참고 논문?
아래의 논문과 제2단의 처리는 비슷한 것 같습니다.
다층 신경망을 이용한 음성 품질 변환 알고리즘의 제안
2. yukarin, become-yukarin 라는 두 가지가 있지만, 어느 쪽을 사용하면 좋을까?
현재 상태에서 가장 좋은 음성 변환을 하기 위해서는 둘 다 사용합니다.
두 리포지토리에서 "제1단 학습"·"제2단 학습"을 실시하고, 그 학습 결과를 사용하여 yukarin 리포지토리의 프로그램으로 음질 변환을 실시합니다.
자세한 내용은 다음과 같습니다.
마지막으로
이해하기 어려운 점이 있으면 정말로 삼가 해주십시오.
처음부터 100%의 기사를 쓰는 것은 어렵기 때문에 80% 정도로 투고해 버리고 있습니다.
그러니 여러분의 댓글로 100%로 해주세요!
*1 리포지토리 이름 변경(2019/6경)
이해하기 어려운 점이 있으면 정말로 삼가 해주십시오.
처음부터 100%의 기사를 쓰는 것은 어렵기 때문에 80% 정도로 투고해 버리고 있습니다.
그러니 여러분의 댓글로 100%로 해주세요!
*1 리포지토리 이름 변경(2019/6경)
Reference
이 문제에 관하여(『Yukarin 라이브러리』 yukarin, become-yukarin 개요·리포지토리 관계를 정리해 보았다), 우리는 이곳에서 더 많은 자료를 발견하고 링크를 클릭하여 보았다 https://qiita.com/atticatticattic/items/7c668dd5cf8a78ea1094텍스트를 자유롭게 공유하거나 복사할 수 있습니다.하지만 이 문서의 URL은 참조 URL로 남겨 두십시오.
우수한 개발자 콘텐츠 발견에 전념 (Collection and Share based on the CC Protocol.)