아마존 Transcribe를 써봤어요.

4646 단어 AmazonTranscribeAWS

입문


이 글은 주식회사 지식교류가 운영하는 아마존 AI by 나노 Advent Calendar 2020의 22일째다.
AI를 이용한 AWS 서비스를 대상으로 한 이번 기사가 좋았기 때문에 서비스 설명을 읽어보니 재미있어 보이는 아마존 Transcribe 서비스를 사용해 봤다.

아마존 Transcribe가 뭐예요?


아마존 Trandcribe는 자동 음성인식이라고 불리는 심층 학습 과정을 이용하여 음성을 텍스트로 변환하는 서비스다.
이번에는 Real-timetranscription이라는 실시간 텍스트의 문자 깨우기 기능과transcriptionjobs라는 녹음 데이터가 텍스트에 대한 문자 깨우기 기능을 사용해 보고 싶습니다.

Real-time transcription


우선 실시간transcription을 사용해 보십시오.
AWS 콘솔에서 아마존 Transcribe를 선택했습니다.
기능 목록에서 Real-timetranscription을 선택하면 다음 화면으로 이동합니다.

그리고 언어에서 Japan ese, JP(ja-JP)를 선택한 다음 오른쪽 상단의 시작streaming을 선택하십시오.
그 다음엔 마이크랑 얘기만 했어요.

그러면 대화 내용이 콘솔 화면에 표시됩니다.
이번에 저는 AWS 공식 아마존 Transcribe 소개문이 문자를 불러일으킬 수 있는지 시험해 보고 있습니다.
한 번 문자를 일으키고 싶은 내용을 다 말하고 stopstreaming을 선택하면 끝입니다.
자신이 말한 내용은 json 형식의 파일로 다운로드할 수 있다.
아톰 등을 통해 내용을 확인할 수 있다.자신의 환경에서atm보다 수첩은 문자가 일으키는 부분을 쉽게 찾을 수 있다.

Transcription jobs


다음은 녹음된 데이터에서 문자를 추출해 보세요.
"transcription job 만들기"를 선택하여 job를 만듭니다.
이번에 우리는 테스트라는 직업을 만들 것이다.
모델 유형은 일반 모델을 선택하고 언어 설정은 특정 언어를 선택합니다.
사용자 정의 언어 모델은 특정 용례를 위한 모델이기 때문에 이번에는 선택하지 않습니다.
언어 설정의 자동 언어 표지는 문자 표시를 하는 언어를 모를 때 선택됩니다.
이번에는 일본어라는 걸 알았기 때문에 Specific language를 선택했습니다.

다른 옵션은 이번에 선택하지 않고 job를 실행합니다.
이따가 json 형식으로 문자를 일으키는 데이터를 다운로드할 수 있습니다.
다음은 이번 문자로 인한 데이터입니다.
문자가 일어날 때 사용하는 글은 Real-time transcription 때와 같은 AWS 공식의 아마존 Transcribe 소개문을 사용한다.
아마존 변압기를 사용하면 개발자가 소리를 텍스트로 쉽게 변환할 수 있는 기능 응용 프로그램이다.컴퓨터에서 음성 데이터를 검색하고 분석하는 것은 사실상 불가능하기 때문에 녹음되었다.음성은 응용 프로그램이 사용하기 전에 텍스트로 변환해야 한다
지금까지 고객은 공급자와 합작하여 비용이 비싼 계약을 체결하고 이를 자신의 기술 창고에 포함시켜 이 임무를 완수하는 것은 어려웠다.
이들 전문 공급업체는 대부분 콜센터에서 일반적으로 음질이 낮은 통화 음성 등 각양각색이다.요구 사항에 맞지 않고 형식이 다른 기술을 사용하기 때문에 정밀도가 떨어진다
그 전위부는 소리 자동 식별 강연에서 조합이라고 불리는 심층 학습 과정을 사용하여 소리를 신속하고 정밀하게 텍스트로 변환할 수 있다
아마존 트랜스퍼는 미디어의 메타데이터를 생성하는 데 사용될 수 있으며, 공등 폐쇄 자막과 자막을 자동으로 만들 수 있는 완전한 검색을 위한 압축 파일을 만들 때 고객 서비스를 위한 통화 문자
아마존과 계란선을 긋는 의학을 이용해 의료 관련 소리를 텍스트로 만든다.변환할 기능은 임수 문서를 응용 프로그램에 추가할 수 있습니다
그것만으로도 유용하지만 제대로 알기 어려운 문구도 있다.
그때 유용한 것은 사용자 정의vocabulary라는 기능이다.
이 기능은 식별하기 어려운 문장을 먼저 등록하면 이 문장의 식별성을 높일 수 있다.
이번에는 아까 Transcription jobs를 사용할 때 식별하기 어려운 문장을 등록해 봅시다.
txt 파일에 식별할 문장을 한 줄씩 입력하고 좋아하는 이름으로 파일을 저장합니다.
이번에 우리는 아마존 중계와 중계 제공자 등의 문구를 등록할 것이다.
그리고 컨트롤러에서 사용자 정의vocabulary를 선택한 다음vocabulary를 만드는 데 등록할 수 있습니다.

여기에 등록한 후 Transcription jobs를 다시 만듭니다.
그래서 지난번에 없던 사용자 정의 항목이 추가되었습니다. 그래서 방금 만든 사용자 정의vocabulary의job를 선택하십시오.

이 상태에서 문자를 일으키는 데이터를 다시 확인합니다.
다음은 이번 문자로 인한 데이터입니다.
아마존 전송 프로그램을 사용하면 개발자는 소리를 텍스트로 쉽게 변환할 수 있는 기능 응용 프로그램이다.추가 가능
컴퓨터에서 음성 데이터는 사실상 검색하고 분석할 수 없다
그래서 녹음됐어요.음성은 응용 프로그램이 사용하기 전에 텍스트로 변환해야 한다
지금까지 고객은 기록 제공자와 합작하여 비용이 비싼 계약을 체결하고 이를 자신의 기술 창고에 포함시켜야 하기 때문에 이 임무를 완성하기 어렵다
이들 전문 공급업체는 대부분 콜센터에서 일반적으로 음질이 낮은 통화 음성 등 각양각색이다.부적합한 형식의 기술을 사용하기 때문에 정밀도가 떨어진다
아마존 번역은 음성을 자동으로 식별하고 자동 강연에서 조합이라고 불리는 심층 학습 과정을 사용하여 음성을 신속하고 정밀하게 텍스트로 변환할 수 있다
아마존 전송 프로그램은 미디어의 메타데이터를 생성하는 데 사용할 수 있으며, 공등 폐쇄 자막과 자막을 자동으로 만들 수 있는 완전한 검색 압축 파일을 만들 때 고객 서비스의 통화 문자를 일으킬 수 있다
아마존 중계의학을 이용해 의료 관련 목소리를 텍스트로 만든다.변환할 기능은 임수 문서를 응용 프로그램에 추가할 수 있습니다
이렇게 하면 지난번에 인식하지 못했던 아마존 중계, 중계 제공자 등의 문구를 인식할 수 있다.
다른 식별하기 어려운 문장에 로그인하면 문자 표현의 정밀도를 높일 수 있다.
Vocabulary filtering이라는 기능도 있습니다. 부정확한 문장을 다른 기능으로 등록해서 차단합니다.
사용자 정의vocabulary와vocabulary filtering은 Real-timetranscription에도 사용할 수 있습니다.

총결산


이번에 아마존 Transcribe를 사용해 봤는데 Custom vocabulary를 사용해 정밀도를 높여 사용하기 쉬워진 것 같아요.
시간이 없어 여러 사람의 목소리가 섞인 녹음 파일 등을 준비하지 못해 시도하지 못했지만 여러 사람이 대상이 될 때의 정밀도에 따라 회의록을 얻을 때 미리 녹음한 뒤 녹음 파일에서 문자로 작성해 회의록으로 사용할 수도 있다.

참고문


https://aws.amazon.com/jp/transcribe/

좋은 웹페이지 즐겨찾기