MeCab에서 원본 사전 만들기

2255 단어 mecab
MeCab에 디폴트로 들어 있지 않은 단어를 형태소 해석했을 때, 의도하지 않은 단락지어지는 것이 되는 경우가 있습니다.

예를 들어 레시피 중에 나오는 「물을 자른다」라는 말은, 「물」 「을」 「자르다」라고 형태소 해석됩니다.
이것은 실수는 아니지만, 「물을 끊는다」라고 하는 의미는 없어져 버려, 그것이 곤란한 경우가 있습니다.

그래서, MeCab의 사전에 등록되어 있지 않은 어구를 정리한, 「오리지날 사전」의 만드는 방법을 써 가려고 생각합니다.

사전을 만드는 방법



여기에서는 MeCab의 원래 사전을 만드는 방법을 설명합니다.
모든 데이터는 CSV 형식 (쉼표로 구분)으로 작성됩니다.
문자 코드는 Shift-JIS, 개행 코드는\r (Linux)로 작성하십시오.

명사



명사는 다음과 같이 등록합니다.

왼쪽에서,
등록하고 싶은 명사,ID,ID,가중치,품사,품사 설명,*,*,*,*,등록하고 싶은 명사,카타카나 표시,카타카나 표기
그리고 나란히 있습니다.

동사



동사는 명사와 달리 각 활용형을 써야 합니다.

표는 각각,
등록하고 싶은 명사,ID,ID,가중치,품사,품사 설명,*,*,활용,활용형,등록하고 싶은 동사의 원형,카타카나 표시,카타카나 표기
입니다.
ID는 MeCab에 등록되어 있는 「한다」 「키루」 「붙는」등의 ID를, 각각의 동사에 맞추어 등록합니다.

예를 들어,
볶는다면 599 번이고,
색이 붙으면, 679번이 됩니다.
이것은 MeCab 사전을보고 찾을 수 있습니다.

MeCab 사전으로 CSV 파일 컴파일



명사와 동사 표를 하나의 CSV 파일로 정리하고 다음 명령을 두드립니다.$ /usr/local/libexec/mecab/mecab-dict-index -d /usr/local/lib/mecab/dic/ipadic -u original.dic -f utf-8 -t utf-8 オリジナル辞書CSVファイル名.csv※「오리지널 사전 CSV 파일명.csv」의 부분은 작성한 CSV 파일명으로 바꾸어 주세요.

이 명령을 두드리면 "original.dic"이라는 파일이 현재 디렉토리에 생성됩니다.
이것이 MeCab의 사전입니다.
오류가 발생하면 문자 코드가 Shift-JIS로 줄 바꿈 코드가\r인지 확인하십시오.
※저는 「 」라고 하는 에디터로 잘 확인합니다.

사전을 MeCab에 등록하기



작성한 사전(original.dic)은 어디에 있어도 괜찮습니다만, 나는 「/usr/local/lib/mecab/dic/ipadic/」안에 넣고 있습니다.
그래서, 작성한 사전(original.dic)은,/usr/local/lib/mecab/dic/ipadic/안에 들어가 있는 전제로 이야기를 진행해 갑니다.

/usr/local/lib/mecab/dic/ipadic/dicrc 파일의 어딘가에 다음 문장을 추가합니다.
userdic =/usr/local/lib/mecab/dic/ipadic/original.dic

방법으로는 아마도 터미널에서 편집하는 것이 측정이라고 생각하기 때문에,$ sudo vi /usr/local/lib/mecab/dic/ipadic/dicrc를 두드려 적절한 곳에 삽입하십시오.

이상

좋은 웹페이지 즐겨찾기