MeCab에서 원본 사전 만들기
2255 단어 mecab
예를 들어 레시피 중에 나오는 「물을 자른다」라는 말은, 「물」 「을」 「자르다」라고 형태소 해석됩니다.
이것은 실수는 아니지만, 「물을 끊는다」라고 하는 의미는 없어져 버려, 그것이 곤란한 경우가 있습니다.
그래서, MeCab의 사전에 등록되어 있지 않은 어구를 정리한, 「오리지날 사전」의 만드는 방법을 써 가려고 생각합니다.
사전을 만드는 방법
여기에서는 MeCab의 원래 사전을 만드는 방법을 설명합니다.
모든 데이터는 CSV 형식 (쉼표로 구분)으로 작성됩니다.
문자 코드는 Shift-JIS, 개행 코드는\r (Linux)로 작성하십시오.
명사
명사는 다음과 같이 등록합니다.
왼쪽에서,
등록하고 싶은 명사,ID,ID,가중치,품사,품사 설명,*,*,*,*,등록하고 싶은 명사,카타카나 표시,카타카나 표기
그리고 나란히 있습니다.
동사
동사는 명사와 달리 각 활용형을 써야 합니다.
표는 각각,
등록하고 싶은 명사,ID,ID,가중치,품사,품사 설명,*,*,활용,활용형,등록하고 싶은 동사의 원형,카타카나 표시,카타카나 표기
입니다.
ID는 MeCab에 등록되어 있는 「한다」 「키루」 「붙는」등의 ID를, 각각의 동사에 맞추어 등록합니다.
예를 들어,
볶는다면 599 번이고,
색이 붙으면, 679번이 됩니다.
이것은 MeCab 사전을보고 찾을 수 있습니다.
MeCab 사전으로 CSV 파일 컴파일
명사와 동사 표를 하나의 CSV 파일로 정리하고 다음 명령을 두드립니다.$ /usr/local/libexec/mecab/mecab-dict-index -d /usr/local/lib/mecab/dic/ipadic -u original.dic -f utf-8 -t utf-8 オリジナル辞書CSVファイル名.csv
※「오리지널 사전 CSV 파일명.csv」의 부분은 작성한 CSV 파일명으로 바꾸어 주세요.
이 명령을 두드리면 "original.dic"이라는 파일이 현재 디렉토리에 생성됩니다.
이것이 MeCab의 사전입니다.
오류가 발생하면 문자 코드가 Shift-JIS로 줄 바꿈 코드가\r인지 확인하십시오.
※저는 「 미 」라고 하는 에디터로 잘 확인합니다.
사전을 MeCab에 등록하기
작성한 사전(original.dic)은 어디에 있어도 괜찮습니다만, 나는 「/usr/local/lib/mecab/dic/ipadic/」안에 넣고 있습니다.
그래서, 작성한 사전(original.dic)은,/usr/local/lib/mecab/dic/ipadic/안에 들어가 있는 전제로 이야기를 진행해 갑니다.
/usr/local/lib/mecab/dic/ipadic/dicrc 파일의 어딘가에 다음 문장을 추가합니다.
userdic =/usr/local/lib/mecab/dic/ipadic/original.dic
방법으로는 아마도 터미널에서 편집하는 것이 측정이라고 생각하기 때문에,$ sudo vi /usr/local/lib/mecab/dic/ipadic/dicrc
를 두드려 적절한 곳에 삽입하십시오.
이상
Reference
이 문제에 관하여(MeCab에서 원본 사전 만들기), 우리는 이곳에서 더 많은 자료를 발견하고 링크를 클릭하여 보았다
https://qiita.com/nnahito/items/16c8e214d71fbc23ed8e
텍스트를 자유롭게 공유하거나 복사할 수 있습니다.하지만 이 문서의 URL은 참조 URL로 남겨 두십시오.
우수한 개발자 콘텐츠 발견에 전념
(Collection and Share based on the CC Protocol.)
명사와 동사 표를 하나의 CSV 파일로 정리하고 다음 명령을 두드립니다.
$ /usr/local/libexec/mecab/mecab-dict-index -d /usr/local/lib/mecab/dic/ipadic -u original.dic -f utf-8 -t utf-8 オリジナル辞書CSVファイル名.csv
※「오리지널 사전 CSV 파일명.csv」의 부분은 작성한 CSV 파일명으로 바꾸어 주세요.이 명령을 두드리면 "original.dic"이라는 파일이 현재 디렉토리에 생성됩니다.
이것이 MeCab의 사전입니다.
오류가 발생하면 문자 코드가 Shift-JIS로 줄 바꿈 코드가\r인지 확인하십시오.
※저는 「 미 」라고 하는 에디터로 잘 확인합니다.
사전을 MeCab에 등록하기
작성한 사전(original.dic)은 어디에 있어도 괜찮습니다만, 나는 「/usr/local/lib/mecab/dic/ipadic/」안에 넣고 있습니다.
그래서, 작성한 사전(original.dic)은,/usr/local/lib/mecab/dic/ipadic/안에 들어가 있는 전제로 이야기를 진행해 갑니다.
/usr/local/lib/mecab/dic/ipadic/dicrc 파일의 어딘가에 다음 문장을 추가합니다.
userdic =/usr/local/lib/mecab/dic/ipadic/original.dic
방법으로는 아마도 터미널에서 편집하는 것이 측정이라고 생각하기 때문에,$ sudo vi /usr/local/lib/mecab/dic/ipadic/dicrc
를 두드려 적절한 곳에 삽입하십시오.
이상
Reference
이 문제에 관하여(MeCab에서 원본 사전 만들기), 우리는 이곳에서 더 많은 자료를 발견하고 링크를 클릭하여 보았다
https://qiita.com/nnahito/items/16c8e214d71fbc23ed8e
텍스트를 자유롭게 공유하거나 복사할 수 있습니다.하지만 이 문서의 URL은 참조 URL로 남겨 두십시오.
우수한 개발자 콘텐츠 발견에 전념
(Collection and Share based on the CC Protocol.)
Reference
이 문제에 관하여(MeCab에서 원본 사전 만들기), 우리는 이곳에서 더 많은 자료를 발견하고 링크를 클릭하여 보았다 https://qiita.com/nnahito/items/16c8e214d71fbc23ed8e텍스트를 자유롭게 공유하거나 복사할 수 있습니다.하지만 이 문서의 URL은 참조 URL로 남겨 두십시오.
우수한 개발자 콘텐츠 발견에 전념 (Collection and Share based on the CC Protocol.)