『Yukarin 라이브러리』 yukarin, become-yukarin 개요·리포지토리 관계를 정리해 보았다

개요



『누구나 좋아하는 캐릭터의 목소리(Convert your voice to favorite voice)』 yukarin, become-yukarin의 처리 개요·리포지토리 관계를 설명합니다.
이전 방법으로 좋으면 become-yukarin만으로도 음성 변환을 할 수 있습니다. 하지만 이 기사에서는 신기법 yukarin 을 사용해 음성 변환을 한다고 전제하고 있습니다.
yukarin 의 커맨드 해설 기사도 쓸 예정입니다만, 본 기사로 담백하게 이미지를 정리할 수 있으면 좋겠습니다.
(음성에 관해서는 문외한이므로 설명에 오류가 있을지도 모릅니다. 오류 등이 있으면 지적해 주세요)

비고



이미지하기 쉽도록 타겟 음성은 "유즈키 연고"로 합니다

리포지토리 호칭 *1
2019/6 무렵, 리포지토리의 호칭이 바뀌었습니다.
아래의 3개의 호칭은 yukarin, become-yukarin을 가리키고 있다고 생각해 주세요.
  • "딥 러닝의 힘으로 유즈키 연고의 목소리가되는 리포지토리"
  • "누구든지 유즈키 연고의 목소리가되는 저장소"
  • "누구나 좋아하는 캐릭터의 목소리가 될 수있는 리포지토리"

  • 1. yukarin, become-yukarin 은 어떻게 하고 있는 거야?



    아래의 2단계로 음성 변환을 하고 있습니다. 이것은 yukarin, become-yukarin에서 공통적입니다.
  • 1단 변환 「자신 음성 -> 연고 음성(저해상도)」으로 변환
  • 2 단 변환 "유카리 음성 (저해상도) -> 유카리 음성 (고해상도)"변환으로 고음질화



  • 1.1 제1단계: 음향 특징량의 변환





    음성을 「기본 주파수」・「스펙트럼 포락」・「비주기성 지표」의 3개로 분해해, 「자성->유카리」에 「조정」하는 것으로, 음성 변환을 합니다.
    이 『조정』 부분을 딥 러닝으로 처리하고 있습니다.
    다만, 이 방법에서는 고음질화에는 한계가 있다고 하는 것으로, 다음의 제2단 학습으로 고정밀도화를 하고 있는 것 같습니다.

    참고 기사
    음성 합성 시스템 WORLD를 살펴보기

    1.2 2단계: 스펙트로그램 변환





    스펙트로 그램을 이미지에 비추어, 「제일 변환 후의 스펙트로 그램」을 바탕으로 「오리지널 연고 음성으로 만든 스펙트로 그램」으로 변환하는 것으로 고음질화를 하고 있는 것 같습니다.
    자세한 내용을 모르기 때문에 아래 개발자 블로그를 참조하십시오.
    htps : // 히로시바. 기주 b. 이오/bぉg/베카메-유즈키-유카리-우-th에데

    참고 논문?
    아래의 논문과 제2단의 처리는 비슷한 것 같습니다.
    다층 신경망을 이용한 음성 품질 변환 알고리즘의 제안

    2. yukarin, become-yukarin 라는 두 가지가 있지만, 어느 쪽을 사용하면 좋을까?



    현재 상태에서 가장 좋은 음성 변환을 하기 위해서는 둘 다 사용합니다.
    두 리포지토리에서 "제1단 학습"·"제2단 학습"을 실시하고, 그 학습 결과를 사용하여 yukarin 리포지토리의 프로그램으로 음질 변환을 실시합니다.



    자세한 내용은 다음과 같습니다.



    마지막으로



    이해하기 어려운 점이 있으면 정말로 삼가 해주십시오.
    처음부터 100%의 기사를 쓰는 것은 어렵기 때문에 80% 정도로 투고해 버리고 있습니다.
    그러니 여러분의 댓글로 100%로 해주세요!

    *1 리포지토리 이름 변경(2019/6경)


  • become-yukarin : "딥 러닝의 힘으로 유즈키 유카리의 목소리가되는 리포지토리"-> "누구나 좋아하는 캐릭터의 목소리가 될 수있는 리포지토리"
  • yukarin "누구든지 유즈키 유카리의 목소리가되는 리포지토리"-> "누구나 좋아하는 캐릭터의 목소리가 될 수있는 리포지토리"
  • 좋은 웹페이지 즐겨찾기