Watson 음성인식(STT:Speech to Text)을 Swift 앱으로 사용해 보았다.

iPhone에 말을 걸면 음성 인식하는 Swift 샘플 앱을 IBM Bluemix의 Watson에 있는 Speech to Text (STT) 서비스를 사용해 보았습니다. iOS 10에서. 좋을지도 모릅니다. Speech Recognition API 을 사용합니다. (덧붙여서 Watson을 사용하지 않는 Apple 버전의 샘플은 Watson Developer Cloud iOS SDK)

여기

조금 해설



샘플에는 Recorded Audio, Streaming Audio, Custom Capture Sessions가 있다.
1. Recorded Audio - 녹음된 오디오 파일을 사용합니다.
2. Streaming Audio - 마이크에 말하고 실시간으로 음성 인식.
3. Custom Capture Session - 독자적인 AVCaptureSessionAVCaptureAudioDataOutput 를 사용한다. 이것은 음성 데이터의 이퀄라이저를 화면에 표현하거나, 음성 데이터를 보존하거나, 용도 다수.

만드는 방법은 다음과 같습니다.

1. 샘플 프로젝트 체크아웃



GitHub에서 Speech to Text Demo (Swift)를 복제합니다.
$ git clone https://github.com/watson-developer-cloud/speech-to-text-swift.git

프로젝트 에서 빌드.
$ carthage update --platform iOS

2. 샘플 프로젝트 수정


  • SpeechToTextV1.framework의 링크 끊김을 고쳐 준다. 이전 Carthage 빌드가 완료되면/Carthage/Build/iOS 폴더에 빌드되어 있으므로 이것을 사용한다.
    /ios-sdk/Examples/SpeechToText/Carthage/Build/iOS/SpeechToTextV1.framework
  • Credentials.plist 파일을 만들어 준다. 이것은 Bluemix에 대한 자격 증명이므로 SpeechToTextUsername 키와 SpeechToTextPassword 키는 자신의 Bluemix 계정에 연결된 Speech To Text 서비스의 관리 화면에 설정된 Service Credentials를 작성합니다.

  • Credentials.plist
    <?xml version="1.0" encoding="UTF-8"?>
    <!DOCTYPE plist PUBLIC "-//Apple//DTD PLIST 1.0//EN" "http://www.apple.com/DTDs/PropertyList-1.0.dtd">
    <plist version="1.0">
    <dict>
        <key>SpeechToTextUsername</key>
        <string>70c5833dc-a53a-ca94-6c9ee-f89a23dd3ggg</string>
        <key>SpeechToTextPassword</key>
        <string>0bUzR0Hmkv1g</string>
    </dict>
    </plist>
    

    3. 일본어에 대응시킨다



    TranscriptionSettings의 model을 추기해 주면, 일본어를 들어준다.

    ViewController.swift
    // configure settings for streaming
    var settings = TranscriptionSettings(contentType: .L16(rate: 44100, channels: 1))
    settings.model = "ja-JP_BroadbandModel"
    

    4. 실행 결과



    Start Streaming 버튼을 눌러 iPhone에 말을 걸면 문자가 표시된다. 일본어의 청취에 대해서는, 조금 비밀이므로, 이것은 조정할 수 있을까…? 게다가. 단어보다 긴 문장으로 말을하는 것이 문맥이 있으므로, 정밀도는 높아진다? !

    더 자세한 것은



    IBM Speech to Text service:
  • Carthage
  • Watson Developer Cloud iOS SDK
  • IBM Watson Speech to Text - Service Page
  • IBM Watson Speech to Text - Documentation

  • 또한, Android에 대해서는, 이쪽의 기사가 참고가 됩니다.
    IBM Watson Speech to Text - Demo

    좋은 웹페이지 즐겨찾기