SoundAnalysis+CreateML에서 말하는 사람 식별
추적 2: "iOS13의 새로운 기능을 대충 파악한 책"전자책
100엔
동적 관찰을 할 때의 축심점.본문 84쪽.Sound Analysis의 설명도 있습니다.
"SwiftUI" 에서 구글 검색
(일본어・최근 1개월)
"Sound Analysis"에서 구글을 검색하세요.
(일본어・최근 1개월)
주목을 받지 못하다😇
음악?
잘 모르는 용례?
여겨지지 않습니까?
말하는 사람 식별
말하는 사람 식별
"누가 말하나요?"깨닫다
cf. "무슨 소리야"/음성인식
말하는 사람을 식별할 수 있다면.
현재 정지 화면만 사용하는 응용 프로그램인데 만약에 애니메이션의 사이즈 문제가 해결된다면 앞으로 애니메이션을 이용할 가능성도 나오나요?
Sound Analysis
Sound Analysis
어떤 소리를 분류할 수 있습니까?
음성 분류의 핵심 ML 모델 구축
Create ML
Sound Analysis에서 음성 분류 수행
음성 분류 실행
// ファイル用のアナライザを初期化
let audioFileAnalyzer = try! SNAudioFileAnalyzer(url: url)
// MLModelオブジェクトを渡してリクエストを作成
let request = try! SNClassifySoundRequest(mlModel: HogeSoundClassifier().model)
// リクエストをアナライザに追加
try! audioFileAnalyzer.add(request, withObserver: self)
// 解析開始
audioFileAnalyzer.analyze()
분류 결과
SNClassificationResult
timeRange: CMTimeRange
classifications: [SNClassification]
(프레젠테이션) 비디오에서 말하는 사람 식별
SoundAnalysis+CreateML의 화자인식(2019년 6월 열린 학습회를 위한 시위행진)#iOS13https://t.co/qpExce47Ss-Shoichi Tsutsumi(@shu223)pic.twitter.com/r2Dg27ueeH
(회의장에서의 반응은 이렇다)
February 27, 2020 이거 편하지 않아요? 떡 금속(@omochimetaru)#wwdc_rusuban
사운드 분석(Sound Analysis)으로 소라 소리를 판정하는 시위 행진이 대단하다... June 17, 2019 - 융신(@takashings) #wwdc_rusuban
SoundAnalysis?Sound Analysis?시위에 감동했어요.
— haseken_dev (@haseken_dev) #wwdc_rusuban
확실히 이 사용 장면이 많네요.
훈련 데이터를 늘리면 정밀도가 더 높아질까요?June 17, 2019
Sound Analysis 대단합니다.😱 June 17, 2019 - From_F(@From_F)#wwdc_rusuban
소라 씨의 말은 아는 사람이 대단하다!June 17, 2019 — izumi (@izm256) #wwdc_rusuban
June 17, 2019-Sho Aoki(@shoaooki)#wwdc_rusuban
実装概要 (学習側)
- 훈련용 음성 데이터 준비
- CreateML에서 학습→
.mlmodel
출력 파일
実装概要 (アプリ側)
- 애니메이션에서 사운드 추출 및 파일화
- 파일 분석기로 처리합니다.스트림 오디오 분석 가능
-
timeRange
에 따른 분류 결과
その他
Sound Analysisを使わず、Core MLだけで実装することも可能
Sound Analysisを使うと・・・
overlapFactor
- 식별된 버퍼에 전달되는 길이는 약 1.0초
- 겹치면서 분석 처리를 하여 대상의 소리파형이 구간의 정중간에 이르도록 한다
- 중첩될수록 누락은 적지만 처리 시간은 길다
- 기본값은 0.5
[PR] いろいろ本を出してます
- iOS13의 기능도 추가될 예정
- Edition 무료 업데이트 가능
- 페이지 수에 따라 가격이 오르는데, 지금 사면 수지가 맞습니까?
補足1
10분짜리 LT라서 사랑을 많이 했어요.
- 프레젠테이션은 관찰
confidence
과 결과의 전후 관계를 통해 출력을 필터링합니다.-
confidence < 0.7
결과 절단 - 전후의 식별 결과와
identifier
다른 결과(즉 고립)의 결과는 절단
-
- 데모 중
request.overlapFactor = 0.9
補足2
- 학습 데이터의 녹음 환경과 실행 환경을 일치시켜야 한다
- 학습 데이터/프레젠테이션 장면은 모두 배경음악이 없는 곳을 선택했다
- 시도만 하면 안 되는 것은 아니다.BGM을 포함한 대량의 데이터를 먹을 수 있다면 노봉적으로 식별할 수 있을 것이다
補足3
- 학습용 음성 데이터는 Audacity라는 예로부터 있던 macOS용 파형 편집 소프트웨어를 사용하여 수작업으로 제작되었다
Reference
이 문제에 관하여(SoundAnalysis+CreateML에서 말하는 사람 식별), 우리는 이곳에서 더 많은 자료를 발견하고 링크를 클릭하여 보았다 https://qiita.com/shu223/items/5d6256c7647db8cea139텍스트를 자유롭게 공유하거나 복사할 수 있습니다.하지만 이 문서의 URL은 참조 URL로 남겨 두십시오.
우수한 개발자 콘텐츠 발견에 전념 (Collection and Share based on the CC Protocol.)