Google Cloud Speech API 사용 방법(syncrecognize 메소드)

소개

본 게시물의 정보를 이용하여 발생하는 어떠한 손해에 대해서도 책임을 지지 않습니다.
또한 발언은 개인의 견해이며 소속 조직의 견해가 아닙니다.

음성인식에 대하여

최근 Google, Microsoft, IBM을 비롯한 기업에서 받아쓰기(쓰기)를 수행하는 API가 출시되었습니다. 이번에는 이 중에서 최근 8할에서 9할 가까운 제도를 내세우고 있다고 소문의 Google Cloud Speech API를 사용해 보았습니다.

※참고
Google Google Cloud Speech API
Microsoft Bing Speech API
IBM Speech to Text

API를 사용해 보기(준비편)

각 회사 모두 이전 섹션의 링크에서 실시간으로 시도 할 수 있습니다.

↑”일본어(일본)”를 선택하여 마이크 아이콘에서 받아쓰기가 가능합니다.

모처럼이라면 녹음한 장문(~60sec)도 시험해보고 싶은 곳.

이용까지의 순서는 크게 4개
① 프로젝트 만들기
②API 활성화
③API 키 생성
④ 웹 콘솔 or 좋아하는 언어에서 API를 두드리는

①~③에 관해서는 참고자료를 참조하시거나 QuickStart 을 참고하시는 것을 추천합니다.

API를 사용해보기(실행편)

Google Cloud Storage에 저장된 음성을 API에 던져 인식 결과를 받습니다.

Google Storage에서 파일 로드

Google Storage에 음성 파일을 올리고 API에 던지기 위해 JSON 파일에 음성 세부정보 통합

sync-request.json

{
  'config': {  
      'encoding':'LINEAR16',
      'sampleRate': 16000,
      'languageCode': 'ja-JP'
  },
  'audio': {
      'uri':'gs://cloud-samples-tests/speech/brooklyn.flac'
  }
}

config

encoding: 확장자를 지정합니다. ".wav"로 읽을 때는 'LINEAR16'이라고 합니다.
sampleRate: 샘플링 주파수를 지정합니다. 파일과 일치하지 않으면 움직이지 않습니다.
languageCode: 언어 정보를 지정합니다. (영어일 때는 ‘en-US’)

audio

uri: 파일을 저장할 위치를 지정합니다. 이번에는 Google Storage URI를 지정합니다.

서비스 계정 인증

서비스 계정 키를 자격 증명 만들기에서 만들고 다음 명령을 실행합니다.

$ gcloud auth activate-service-account --key-file=service-account-key-file

액세스 토큰 발급

$ gcloud auth print-access-token

access_token //APIを叩くときに利用

syncrecognize 메소드 실행

$ curl -s -k -H "Content-Type: application/json" \
    -H "Authorization: Bearer access_token" \
    https://speech.googleapis.com/v1beta1/speech:syncrecognize \
    -d @sync-request.json

”access_token”에는 전항에서 취득한 것을 이용

{
  "results": [
    {
      "alternatives": [
        {
          "transcript": "こんにちは",
          "confidence": 0.00000000
        }
      ]
    }
  ]
}

결론

이번에는 Google Cloud Speech API를 사용하는 방법을 간략하게 요약했습니다.
아무것도 모르는 경우 공식 문서를 참조하십시오.
Google Cloud Speech API Documentation
60sec 이상의 문장을 읽을 수 있는 경우에 관해서는 다시 한번 쓰고 싶습니다.

참고

Google Cloud Speech API 베타에서 wav 파일 음성 인식

Reference

이 문제에 관하여(Google Cloud Speech API 사용 방법(syncrecognize 메소드)), 우리는 이곳에서 더 많은 자료를 발견하고 링크를 클릭하여 보았다 https://qiita.com/A-Smon/items/c8cd50aa8c73a0bc3c0f

텍스트를 자유롭게 공유하거나 복사할 수 있습니다.하지만 이 문서의 URL은 참조 URL로 남겨 두십시오.

우수한 개발자 콘텐츠 발견에 전념 (Collection and Share based on the CC Protocol.)

좋은 웹페이지 즐겨찾기

개발자 우수 사이트 수집

개발자가 알아야 할 필수 사이트 100선 추천 우리는 당신을 위해 100개의 자주 사용하는 개발자 학습 사이트를 정리했습니다