문장의 모음을 얻고 읽는 데 걸리는 시간을 추측합니다.

굉장히 말하면, "mecab-ipadic-NEologd가 대단하다는 이야기"입니다. (이미 동명의 타이틀의 기사가 있었으므로 다른 방향으로부터 접근해 보았습니다.)

mecab-ipadic-NEologd



형태소 분석 라이브러리 MeCab에서 최초로 사용하는 사전에는 mecab-ipadic가 있지만, 그 사전은 2007년경에 정비된 것으로 오랫동안 갱신되어 있지 않았습니다.

인터넷상에서 공개되고 있는 최신의 키워드등을 더한 mecab-ipadic-NEologd가 공개되고 있습니다.

문장의 길이를 얻는다.



주제입니다.

Word 등에는 문장의 문자수를 표시하는 기능이 있습니다.

그러나 일본어는 한자와 가나가 섞인 문장이기 때문에 문자수 자체가 문장의 길이라고는 말할 수 없는 경우가 있습니다. (이것을 이용하여 문자수를 잘라내거나, 물을 늘릴 수 있고, Twitter나 문자수 규정이 있는 리포트 등으로 신세를 지는 것입니다만….)

특히 연설을 하는 경우, 이 문장은 도대체 어느 정도의 시간이 걸릴까? 가 되어 사전에 여러 번 읽는 것으로 시간을 정할 필요가 나옵니다. (익숙한 사람이라면 문장의 문자수로부터 대략의 시간은 추측할 수 있는 것 같습니다만….)

읽을 때의 길이를 좌우하는 요소를 생각해 보면, 문장의 길이를 결정하는 것은 독가명의 길이와 거의 같다고 추측할 수 있습니다.
기존의 mecab-ipadic에서는 사전에 포함되지 않은 단어가 나오면 부정확한 읽을 가명을 할당해 버려 실용성이 있다고는 말할 수 없었습니다.
그러나 mecab-ipadic-NEologd를 사용하면 거의 정확한 형태로 읽기 가명을 얻을 수 있어 실용에 충분한 도구가 되었습니다.

SEPSpeechTools



v0.0.1 (반드시 두 개의 ZIP을 다운로드하십시오. 또한 설정에서 사전 (dict)을 지정하십시오.)



텍스트 상자에 문장을 붙여넣으면 문장의 문자 수 외에 음수를 표시합니다.

음수의 산출 방법은 다음과 같습니다.
  • 묘음( 등)을 0 모음으로 합니다.
  • 음향( )을 0.5 모음으로 계산합니다.
  • 기호 중 구점( )이나 장음( )과 같은 타이밍에 관련된 것을 1모음으로 계산합니다.
  • 기타 기호는 0 모음으로 취급합니다.
  • 읽을 수없는 알 수없는 단어의 경우 문자 수를 그대로 적용합니다.

  • 어떻게 읽어 가명을 얻었는지 루비로 확인하는 기능도 붙였습니다.



    게다가, 「Wave로 한다」버튼을 누르는 것으로 기계 음성으로 읽은 Wave 파일을 출력하는 기능도 붙였습니다.

    기계 음성 프로그램은 막대기 읽기 에 붙어 있던 구판의 AquesTalk 라이브러리를 해킹해 사용해 보았습니다. (구판의 라이센스를 대략 읽는 한은 재배포 가능하다고 이해했습니다만, 잘못하면 수정합니다. AquesTalk2 라고 하는 것도 신경이 쓰이고 있으므로…

    소프트웨어 라이센스는 GPLv3에서 공개합니다.
    상당히 틈새 소프트웨어이지만 pull-req와 기능 요청 기다리고 있습니다.

    좋은 웹페이지 즐겨찾기