최신 빠른 기록 정보

7588 단어 Swiftwwdc2019

입문


iOS10에서 사용할 수 있는 음성인식 API:Speech Framework의 WWDC 2019에 대한 업데이트가 있기 때문에 샘플과 함께 최신 상황을 보냅니다.
API 배포에 대한 자세한 내용은 iOS의 Speech 프레임워크에서 음성인식 - 대응 언어는 58가지! -Qiita 을 참조하십시오.

WWDC 2019의 세션 내용


WWDC2019 세션Advances in Speech Recognition - WWDC 2019 - Videos - Apple Developer의 내용을 살펴보겠습니다.
요약
  • macOS 지원
  • 장치에서 작동 가능
  • API 향상 덕분에 풍부한 음성 분석 가능
  • 태그 요소의 표시 속성을 수정합니다.

    macOS 지원


    이 지원은 Mac의 AppKit 앱과 아이패드 앱을 동시에 사용할 수 있습니다.
    iOS와 마찬가지로 50여 개의 언어를 지원하며 사용자의 승인이 있어야 마이크에 접근하고 소리를 녹음할 수 있다.
    또한 사용자는 Siri를 활성화해야 합니다.

    디바이스에서 실행 가능


    제목과 같이 현재 로컬 환경에서만 실행됩니다.
    네트워크 통신이 필요 없고 데이터가 Apple에 전송되지 않기 때문에 프라이버시를 더욱 고려해 응용 프로그램을 개발할 수 있다.
    그러나 절충으로
  • 정밀도 차이
  • 지속적인 학습을 진행하기 때문에 서버를 통해 더욱 좋다.
  • 실시간
  • 로컬 실행 지연이 적음
  • 제한 사항
  • 네트워크 통신에서 요청 수와 소리 길이 제한
  • 로컬 무제한
  • 10개 언어만 지원
  • English, Spanish, Italian, Brazilian Portuguese, Russian, Turkish, Chinese
  • 등, 각자 문제점도 있는데, 도입에 대해 토론이 필요합니까?
    특히 일본어 대응이 없으면 상당히 힘들다.
    실현을 위해서는 SFSpeechRecognizer 실례의 supportsOnDeviceRecognition (iOS13+) 로컬 지원 여부만 확인하고 SFSpeechAudioBufferRecognitionRequest 등 요청에 나타난 requiresOnDeviceRecognition 을 on으로 설정합니다.
    if speechRecognizer.supportsOnDeviceRecognition {
        recognitionRequest.requiresOnDeviceRecognition = true
    } else {
        // do something    
    }
    
    Advances in Speech Recognition - WWDC 2019 - Videos - Apple Developer의 시작은 손에서 검증을 했고 다음과 같이 기록팀과 비교했다.재현 환경에 따라 어느 것이든 정확성이 부족하다는 인상을 준다.
    서버 통신자가 최초의 SE를 강제로 언어화한 것 같습니다.
    중계하여 기록하다
    Hi. I'm Neha Agrawal, and I'm a software engineer working on speech recognition. In 2016, we introduced the Speech Recognition framework for developers to solve their speech recognition needs. For anyone who is new to this framework, I highly recommend watching this Speech Recognition API session by my colleague Henry Mason.
    본토
    서버 통신


    풍부한 음성 분석


    iOS10에서 Speech Recognition을 시작한 후
  • 기록
  • 대체 해석
  • 신뢰도
  • 정시 정보
  • 결과로 돌아왔습니다.
    iOS13은 다음 새로운 결과도 반환합니다.
  • 속도: 사람이 분당 단어로 말하는 속도
  • 평균 일시정지 시간: 단어 간 평균 일시정지 시간
  • 음성 분석 기능: 더욱 고급스럽고 전문적인 분석
  • Jitter: 음성 음조 변화
  • Shimmer: 음성 폭 변화
  • Pitch: 음조의 높낮이
  • Voicing: 강연에서 발생한 영역(?)
  • recognitionTask 방법의 결과를 통해 접근할 수 있습니다. 아래와 같습니다.
    
    if let result = result {
    
        let formattedString = result.bestTranscription.formattedString
        let speakingRate = result.bestTranscription.speakingRate
        let averagePauseDuration = result.bestTranscription.averagePauseDuration
    
        for segment in result.bestTranscription.segments {
            let jitter = segment.voiceAnalytics?.jitter.acousticFeatureValuePerFrame
            let shimmer = segment.voiceAnalytics?.shimmer.acousticFeatureValuePerFrame
            let pitch = segment.voiceAnalytics?.pitch.acousticFeatureValuePerFrame
            let voicing = segment.voiceAnalytics?.voicing.acousticFeatureValuePerFrame
        }
    }
    

    끝내다


    이상, Advances in Speech Recognition - WWDC 2019 - Videos - Apple Developer의 내용에 따라 송부했습니다.
    분석의 Jitter와 Shimmer 등 전문 분야에 진출하지 못했기 때문에 더 자세한 설명을 누구에게 양보하고 싶습니다.이해하기 쉬운 기사를 읽고 싶어요...!
    또한 Voicing이 무엇을 나타내는지 아직 잘 모르겠습니다.
    샘플 코드는 github.com/mtfum/SpeechSampler 위에 있습니다. 보십시오.
    읽어주셔서 감사합니다.

    참고 자료

  • Speech Recognition API - WWDC 2016 - Videos - Apple Developer
  • iOS의 Speech 프레임워크에서 음성인식 - 대응 언어는 58가지! -Qiita
  • Advances in Speech Recognition - WWDC 2019 - Videos - Apple Developer
  • Realtime Video Closed Captioning in SwiftUI - Better Programming - Medium
  • 좋은 웹페이지 즐겨찾기