XML 음성 합성 에서 의 응용

2880 단어 XM ML L 재 재담 음성 음 합

인터넷 과 그 와 관련 된 모든 것 이 지금 곳곳에서 볼 수 있 는 것 같다.당신 은 야간 전화 판매원 의 음성 전 화 를 받 아 보 았 거나 현지 약국 에서 당신 에 게 처방 통 지 를 받 은 적 이 있 을 지도 모 릅 니 다.이제 음성 합성 과 XML 기술 을 결합 해 음성 정 보 를 전송 할 수 있 는 신기 술 이 생 겼 다. 음성 으로 정 보 를 전달 하 는 수단 은 결코 새로운 것 이 아니다.그것 은 우리 가 수천 년 동안 사용 해 온 교류 방법 이다.그리고 컴퓨터 로부터 전 화 를 받 는 것 도 새로운 발명 은 아니다.많은 음성 기술 이 지금까지 이미 유행 하고 있다.팩스,자동 다이얼 부터 통합 음성 답장 시스템(IVR)까지.전 화 는 당연히 그것 의 가장 보편적 인 응용 이다. 전통 적 인 음성 시스템 은 사전에 녹 음 된 견본,사전 과 음 소 를 사용 하여 우리 가 들 은 소 리 를 만든다.그러나 이런 사전 녹화 수단 을 사용 하 는 데 는 문제 가 많다.그 중에서 가장 보편적 인 문제 중 하 나 는 일관성 과 변화 가 부족 하 다 는 것 이다.녹 음 된 음성 버 전 만 있 으 면 단어 나 소리 마다 샘플 이 하나 밖 에 없다 면 컴퓨터 가 일반 진술 문 과 다른 어조 의 의문문 을 내 보 내기 어렵다.컴퓨터 가 언제 어떤 어조 로 발음 해 야 하 는 지,어떤 어조 로 발음 해 야 하 는 지 알 게 하 는 것 도 어렵다. 음성 합성 문 제 를 해결 하 는 데 도움 을 주기 위해 W3C 는 음성 합성 표기 언어(Speech Synthesis Markup Language)에 새로운 작업 초 고 를 만 들 었 다.이 새로운 XML 어휘 표 는 음성 브 라 우 저 개발 자 들 이 음성 합성 기의 생 성 방법 을 제어 할 수 있 게 한다.예 를 들 어 개발 자 는 명령 을 볼 륨 에 포함 시 키 고 음성 모드 를 합성 할 때 사용 할 수 있 습 니 다. SSML 규범 은 Sun 회사 의 초기 JSpeck Markup Language(JSML)라 는 연구 업 무 를 바탕 으로 한다.JSML 은 자바 Speech API Markup Language 를 기반 으로 한다.현재 SSML 은 W3C 음성 연구 팀 의 작업 원고 입 니 다. SSML 언어의 기본 목 표 는 텍스트 에서 음성(Text-To-Speech 약칭 TTS)으로 가 는 프로세서 입 니 다.TTS 엔진 이 텍스트 의 집합 을 얻어 음성 으로 변환 합 니 다.현재 몇 가지 TTS 응용 프로그램 이 있 는데 예 를 들 어 전화 음성 합성 답장 시스템,그리고 시각 장애인 을 위 한 더욱 고 급 스 러 운 시스템 등 이다.특정 텍스트 집합의 발음 자체 고유의 불확실 성 은 기 존 TTS 시스템 이 직면 한 주요 난제 중 하나 다.다른 보편적 인 문 제 는 단어 약자(예 를 들 어 HTML),맞 춤 법 과 발음 이 다른 단어(예 를 들 어 subpoena)등 품사 의 발음 에 집중 된다. SSML 언어의 기본 요 소 는 텍스트 의 형식 을 지정 합 니 다.예 를 들 어 HTML 에 대해 SSML 언어 는 단락 요 소 를 제공 하고 더 멀리 간다.문장 요소 도 제공 하기 때문이다.시작 주소 와 종료 주 소 를 포함 하여 지 정 된 단락 처럼 문장의 주 소 를 지정 함으로써 TTS 엔진 은 더욱 정확하게 음성 을 생 성 할 수 있 습 니 다. SSML 은 기본 형식 외 에 예 정 된 단어 나 단어 집합 을 어떻게 보 낼 지 지정 하 는 기능 도 제공 했다.이 기능 은'say-as'요소 로 이 루어 진다.그것 은 SSML 에서 매우 유용 한 구성 요소 이다.템 플 릿 을 지정 할 수 있 습 니 다.이 템 플 릿 은 어떤 단어 나 단 어 를 어떻게 발음 하 는 지 설명 합 니 다.'say-as'를 통 해 우 리 는 줄 임 말 단 어 를 발음 하 는 방법 을 지정 할 수도 있 고 맞 춤 법 과 발음 이 다른 단어 에 발음 을 지정 할 수도 있다.숫자 와 날짜 사이 의 차이 도 나열 할 수 있 습 니 다."say-as 요 소 는 이메일 주소,화폐,전화번호 등에 대한 지원 을 포함한다. 우 리 는 또한 텍스트 에 대해 음성학 적 표현 방식 을 제공 할 수 있다.예 를 들 어 우 리 는 이런 수단 을 통 해 미국식 영어 와 영국 식 영어 가 potato 단어 에 대한 발음 이 다르다 는 것 을 지적 할 수 있다. SSML 언어의 몇 가지 고급 속성 은 TTS 시스템 이 더욱 인성 화 된 소 리 를 만 드 는 데 도움 을 줄 수 있다.우 리 는'음성'요 소 를 사용 하여 남성,여성 또는 중성 적 인 소 리 를 지정 할 수 있 고 소리 가 속 하 는 나 이 를 지정 할 수 있다.우 리 는 이 요 소 를 사용 하여 네 살 짜 리 남자 아이 부터 75 살 짜 리 노부인 사이 의 어떤 소리 도 지정 할 수 있다. 우 리 는 강조 하거나 부차적인 텍스트 를 둘러싸 는'emphasis'요 소 를 사용 할 수 있다.우 리 는 또한"break"요 소 를 사용 하여 시스템 음성 이 어 딘 가 에서 멈 춰 야 한다 고 알려 줄 수 있다. SSML 언어의 최고급 특성 중 하 나 는'prosody'요소 에 나타난다.그것 을 통 해 우 리 는 특정한 지정 한 방식 으로 특정한 텍스트 집합 음성 을 생 성 할 수 있다.우 리 는 소리의 어조,범위,말 속 도 를 지정 할 수 있다.우 리 는'contour'요 소 를 사용 해 더 디 테 일 한 것 을 지정 할 수도 있다.'contour 요 소 는 어조 와 속 도 를 한데 모 았 다.텍스트 집합 을 지정 하 는'contour'요소 값 을 통 해 음성 을 만 드 는 방법 을 더욱 정확하게 정의 할 수 있 습 니 다.

이 내용에 흥미가 있습니까?

현재 기사가 여러분의 문제를 해결하지 못하는 경우 AI 엔진은 머신러닝 분석(스마트 모델이 방금 만들어져 부정확한 경우가 있을 수 있음)을 통해 가장 유사한 기사를 추천합니다:

S3에 이미지가 올라가면 이미지 분류 추론 끝점에 던지는 Lambda 만들기

S3 버킷에 이미지가 업로드되면 그 이미지를 Lambda가 가져가서 미리 세운 SageMaker 추론 엔드포인트에 던져 결과를 얻는 구조를 만듭니다. 결과를 AWS SNS에 전송하는 방법과 Lambda를 CRON을 ...

텍스트를 자유롭게 공유하거나 복사할 수 있습니다.하지만 이 문서의 URL은 참조 URL로 남겨 두십시오.

CC BY-SA 2.5, CC BY-SA 3.0 및 CC BY-SA 4.0에 따라 라이센스가 부여됩니다.

HTML 의 XML 데이터 섬 기록 편집 및 추가

'NETCORE'에서 Generic-host 를 사용 하여 호스트 를 만 드 는 방법 을 빠르게 알 아 보기

좋은 웹페이지 즐겨찾기

개발자 우수 사이트 수집

개발자가 알아야 할 필수 사이트 100선 추천 우리는 당신을 위해 100개의 자주 사용하는 개발자 학습 사이트를 정리했습니다