이미지에서 미리 학습한 모형을 사용하여 소리를 식별하다
6110 단어 음성 인식매개 변수 언어 정보과도 학습마스크
음성인식과 말하는 사람 식별에서 신경 네트워크를 사용한 지 이미 몇 년이 되었다[1].
신경 네트워크는 매우 복잡한 모델링을 할 수 있지만 이를 위해 대량의 데이터가 필요하다.
음성인식 분야에서 유명한 대규모 어료 라이브러리에는 Libri Speech가 있다.그러나 음성에 언어 장애가 있어 사진처럼 미국에서 제작된 데이터세트는 일본에서 직접 사용할 수 없다.또 말하는 사람의 의존성과 말하는 방식 등 임무에 대한 의존도 크다.
주제 밖의 말: 구어가 되면 소리와 언어가 달라지고 구어도 자료 라이브러리를 원하게 되는데...일본어 구어 자료 라이브러리(CSJ)[2]처럼 대규모 자료 라이브러리는 매우 어렵다.
방금 이미지를 살짝 접촉했는데 이미지 식별에서 신경 네트워크도 매우 사용되고 데이터량도 매우 중요하다.데이터 세트도 많이 준비했어요.이미지는 언어 의존성이 거의 없기 때문에 미국에서 정비된 이미지 데이터 세트를 자주 사용해 일본에서 사용하는 이미지 식별 모델을 제작한다.
그럼에도 대규모 데이터 집합은 아무나 만들 수 있는 것이 아니다.많은 사람들이 대규모 데이터를 집중적으로 학습한 이미지 식별 모델을 손 옆의 이미지 식별 임무에 사용하고 싶어 하기 때문에 전이 학습과 정밀 조화 등 기술을 자주 사용한다.
음성인식과 화자가 인식하는 신경망에는 볼륨 신경망(이하 CNN)이 등장했다.이것은 주파수 특성으로 스펙트럼을 사용하고 스펙트럼을 이미지로 보고 CNN을 주파수 분석으로 이용한다.그렇다면 영상으로 학습한 CNN은 음성인식의 주파수 분석 부분에 사용할 수 없나.
낭독자 식별 영역에서 이미지에서 배운 모델부터 이동 학습을 시도한다.VoxCeleb2라는 애니메이션과 소리의 데이터 집합(취재와 강연 등이 많다)을 사용한 대화자 식별[3]에서 최초로 얼굴 이미지 데이터 집합을 이용하여 기초 모델을 학습했다.이어 영상과 사운드를 연결된 CNN으로 확장한 뒤 인터뷰 영상을 사용해 학습하고, 사운드 부분을 잘라 화자 인식 모드를 만든다.
이미지는 시간 서열 데이터가 아니기 때문에 음성인식처럼 서열 기호열을 구하는 임무보다 말하는 사람이 식별하는 것처럼 단일 기호를 예측하는 임무가 이미지 식별 모델에서 이동하는 것을 배우기 쉽다.목소리로부터 단일 기호 예측을 하는 임무로 올해 특유의 임무는'마스크 착용 여부를 발성 소리로 예측하는 것'이다.
이 과제에는 이미지를 이용하여 미리 학습한 모델에 대한 논문도 있다[5].
이 논문은 인터셉트 2020년 열린 파라 언어 정보에 관한 경연대회'컴페어 2020'의 미션 마스크 부문에 참여했다.짧은 시간 목소리로 마스크 착용 여부를 판단하는 임무다.MASC(Mask Ausburg Speech Corpus) 한 마디로 1초 정도 음성 자료 라이브러리를 사용합니다.발화수는 36554, 낭독자수는 32이다.마스크가 있는 발언과 없는 발언은 각각 절반 정도(마스크 착용이 많은 편)였다.(이하 표는 경기의 설명 논문[4]의 Table1)을 인용한 것으로, 또 데이터는 Train(학습용), Dev(학습검증용), Test(평가용)로 나뉜다.
음향 특징량은 단시간 FFT 스펙트럼을 사용하지만 시간 해상도와 주파수 해상도는 동시에 높일 수 없다(절충 관계가 있다).이에 따라 3가지 창문 폭을 준비해 각 통로(컬러 이미지에 해당하는 RGB)를 하나의 데이터로 정리했다.논문의 Fig.1에서는 창 너비(ws)의 예로 5ms, 15ms, 50ms 세 가지를 준비해 각 창 너비의 스펙트럼을 채널에 3개 채널의 스펙트럼으로 배분했다.마지막 320×320픽셀로 조정합니다.회전(최대 3도), 확대(최대 140%), 밝기 변화(최대 30%)로 데이터 확장도 진행한다.
다음은 분류된 신경망 모형을 준비한다.320×320픽셀의 3채널 데이터를 사용해 마스크 착용 유무라는 선택의 문제를 모색하는 모델이기 때문에 흔한 이미지 분류 모델의 구조를 사용할 수 있다.이 논문은 VGG, ResNert, DenseNet을 사용했다.ImageNet의 학습 완료 모델을 모두 초기 모델로 하고 마지막 출력층을 2개 단원으로 바꾸어 2 선택 문제 대응 모델로 한다.
모델들의 합주도 진행되고 있다.여기서 출력층의 소프트 최대치 함수의 출력은 분류류의 소속 확률로 간주되고 여러 모델의 출력층에서 얻은 소속 확률의 평균 조합 방법과 최대 값을 사용하는 샘플링 방법을 채택했다.
실험 결과는 트레인 데이터로 처음 학습한 모델에 대한 Dev 데이터 평가 결과를 보여줬다.
N3CH-0(창 길이 8ms, 15ms, 30ms)의 3개의 채널 스펙트럼과 N3CH-75(-75dB로 N3CH-0을 차단한 그림).W3CH-0(창 길이 5ms, 15ms, 50ms)의 3개 채널 스펙트럼과 W3CH-75(W3CH-0은 -75dB로 절단) 등 총 4가지 성능이 비교적 높다.MSS(전자의 스펙트럼 그래프)나 ConstQ(연속 Q변환)보다 주파수축에 변환하지 않은 3CH-의 결과가 대체로 더 좋았다.
이어 Train+Dev 데이터를 통해 학습하고 Test 데이터를 통해 평가한다.사용한 스펙트럼은 최초 실험에서 성능이 비교적 높은 4가지(N3CH-0, N3CH-75, W3CH-0, W3CH-75)이다.
트레인으로만 학습한 결과보다 성능이 매우 좋은데 트레인+Dev로 학습한 효과인가.확실히 데이터 양은 2배 정도다.학습에 사용된 데이터 양을 확인하려면 트레인과 학습해 Test로 평가한 데이터를 트레인+Dev에서 학습하고 Test로 평가해 평가용 데이터를 동일하게 만들고 싶다.
마지막으로 마스크 착용 여부를 판단할 때 어느 부위가 중요한지 확인해야 한다.이 논문은 이미지 인식에도 자주 사용되는 CAM을 사용했다[6].CAM을 사용하여 마스크와 마스크가 없는 스펙트럼 그림의 중요성을 음영처리한 결과는 다음과 같습니다.무작위로 4개를 뽑아 발언하다.
다음은 주파수 단위로 마스크가 있는 소리를 평균적으로 추출하는 중요성 도표다.
마스크 소리가 나는 3kHz에서 5kHz를 발견하는 것이 중요하다.음성인식과 같은 음운인식은 그다지 중시되지 않는 주파수대이다.이는 고주파대를 중시하지 않는 카트리지와 주파수에 대한 모델을 사용한 마스크 착용의 판별 성능이 높지 않은 결과와 일치한다.
논문의 소개는 이것으로 끝냅니다.평소 음성인식을 많이 접하다 보니 전자 주파수보다 주파수 변환이 없는 결과가 신선하다.나는 파라 언어 정보가 음운과 다른 축에 중요한 정보가 있다는 것을 생각했다.
문헌.
[1]Alex Graves, Abdel-rahman Mohamed and Geoffrey Hinton,”SPEECH RECOGNITION WITH DEEP RECURRENT NEURAL NETWORKS”, http://www.cs.toronto.edu/~hinton/absps/DRNN_speech.pdf ,2011.
[2] 일본어 구어 자료 라이브러리, https://pj.ninjal.ac.jp/corpus_center/csj/
[3]Joon Son Chungy, Arsha Nagraniy, Andrew Zisserman, “VoxCeleb2: Deep Speaker Recognition”, https://arxiv.org/abs/1806.05622 , 2018.
[4]Björn W. Schuller, Anton Batliner, et al., “The INTERSPEECH 2020 Computational Paralinguistics Challenge:Elderly Emotion, Breathing & Masks”, http://www.compare.openaudio.eu/compare2020/ , 2020.
[5]Jeno Szep, Salim Hariri, “Paralinguistic Classification of Mask Wearing by Image Classifiers and Fusion”, https://isca-speech.org/archive/Interspeech_2020/pdfs/2857.pdf , 2020.
[6]Bolei Zhou, Aditya Khosla, Agata Lapedriza, Aude Oliva, Antonio Torralba, “Learning Deep Features for Discriminative Localization”, https://arxiv.org/abs/1512.04150 , 2015.
Reference
이 문제에 관하여(이미지에서 미리 학습한 모형을 사용하여 소리를 식별하다), 우리는 이곳에서 더 많은 자료를 발견하고 링크를 클릭하여 보았다 https://qiita.com/shu_O/items/6010e4ec68f55b708b31텍스트를 자유롭게 공유하거나 복사할 수 있습니다.하지만 이 문서의 URL은 참조 URL로 남겨 두십시오.
우수한 개발자 콘텐츠 발견에 전념 (Collection and Share based on the CC Protocol.)