SoundAnalysis+CreateML에서 말하는 사람 식별

추기1: 이 슬라이드는 2019년 6월에 개최된 이벤트를 대상으로 제작되었습니다.
추적 2: "iOS13의 새로운 기능을 대충 파악한 책"전자책

100엔


동적 관찰을 할 때의 축심점.본문 84쪽.Sound Analysis의 설명도 있습니다.

"SwiftUI" 에서 구글 검색



(일본어・최근 1개월)

"Sound Analysis"에서 구글을 검색하세요.



(일본어・최근 1개월)

주목을 받지 못하다😇


음악?



잘 모르는 용례?



여겨지지 않습니까?


말하는 사람 식별


말하는 사람 식별


"누가 말하나요?"깨닫다


cf. "무슨 소리야"/음성인식

말하는 사람을 식별할 수 있다면.

  • 의사록, 번역, 자막
  • 동영상과 소리의 소리 없는 부분을 자동으로 잘라낸다
  • 애니메이션이나 사운드에서 특정 대화자의 부분만 추출
  • etc.
    현재 정지 화면만 사용하는 응용 프로그램인데 만약에 애니메이션의 사이즈 문제가 해결된다면 앞으로 애니메이션을 이용할 가능성도 나오나요?

    Sound Analysis


    Sound Analysis

  • iOS13에 추가된 음성 분석에 사용되는 프레임워크
  • 현재 음성 분류만 가능
  • "SoundAnalysis"(참조)인지 "SoundAnalysis"(WWDC)인지 잘 모르겠지만...
  • 어떤 소리를 분류할 수 있습니까?

  • 특정 종류의 소리를 분류할 준비가 되지 않은 클래스 등
  • 자체 제작 코어 ML 모델 필요
  • → 아무 소리나 (할 줄 모른다고)

    음성 분류의 핵심 ML 모델 구축


    Create ML

  • [2019 올해의 판] 드래그를 통해 머신러닝 모형을 만드는'CreateML'의 사용법(macOS10.15 Catalina) #WWDC19 - 이후

  • Sound Analysis에서 음성 분류 수행


    음성 분류 실행

    // ファイル用のアナライザを初期化
    let audioFileAnalyzer = try! SNAudioFileAnalyzer(url: url)
    
    // MLModelオブジェクトを渡してリクエストを作成
    let request = try! SNClassifySoundRequest(mlModel: HogeSoundClassifier().model)
    
    // リクエストをアナライザに追加
    try! audioFileAnalyzer.add(request, withObserver: self)
    
    // 解析開始
    audioFileAnalyzer.analyze()
    

    분류 결과

    SNClassificationResult
  • timeRange: CMTimeRange
  • 처리 구간의 시작 시간, 종료 시간
  • classifications: [SNClassification]
  • 분류별 레이블
  • 분류별 신뢰도
  • (프레젠테이션) 비디오에서 말하는 사람 식별



    SoundAnalysis+CreateML의 화자인식(2019년 6월 열린 학습회를 위한 시위행진)#iOS13https://t.co/qpExce47Ss-Shoichi Tsutsumi(@shu223)pic.twitter.com/r2Dg27ueeH


    (회의장에서의 반응은 이렇다)










    実装概要 (学習側)


    1. 훈련용 음성 데이터 준비
    2. CreateML에서 학습→.mlmodel 출력 파일



    実装概要 (アプリ側)


    1. 애니메이션에서 사운드 추출 및 파일화
      • 파일 분석기로 처리합니다.스트림 오디오 분석 가능

    2. timeRange에 따른 분류 결과



    その他




    Sound Analysisを使わず、Core MLだけで実装することも可能


    June 17, 2019




    Sound Analysisを使うと・・・





    overlapFactor


    • 식별된 버퍼에 전달되는 길이는 약 1.0초
    • 겹치면서 분석 처리를 하여 대상의 소리파형이 구간의 정중간에 이르도록 한다
    • 중첩될수록 누락은 적지만 처리 시간은 길다
    • 기본값은 0.5



    [PR] いろいろ本を出してます



    • iOS13의 기능도 추가될 예정
    • Edition 무료 업데이트 가능
    • 페이지 수에 따라 가격이 오르는데, 지금 사면 수지가 맞습니까?




    補足1


    10분짜리 LT라서 사랑을 많이 했어요.
    • 프레젠테이션은 관찰confidence과 결과의 전후 관계를 통해 출력을 필터링합니다.
      • confidence < 0.7 결과 절단
      • 전후의 식별 결과와 identifier 다른 결과(즉 고립)의 결과는 절단

    • 데모 중 request.overlapFactor = 0.9



    補足2


    • 학습 데이터의 녹음 환경과 실행 환경을 일치시켜야 한다
      • 학습 데이터/프레젠테이션 장면은 모두 배경음악이 없는 곳을 선택했다
      • 시도만 하면 안 되는 것은 아니다.BGM을 포함한 대량의 데이터를 먹을 수 있다면 노봉적으로 식별할 수 있을 것이다




    補足3


    • 학습용 음성 데이터는 Audacity라는 예로부터 있던 macOS용 파형 편집 소프트웨어를 사용하여 수작업으로 제작되었다

    좋은 웹페이지 즐겨찾기