MeCab에 사전 추가

4531 단어 파이썬mecab
죄송합니다. Qiita에 대한 게시물은 초보자이므로 레이아웃이 다양합니다.
레이아웃과 쓰기에 대한 조언을 해주셔서 감사합니다.

【개요】



MeCab에 새 단어 (사용자 사전)를 추가하는 단계

【환경】



Mac OS X

【주의 사항】



1. MeCab이 도입되었다고 가정합니다.
2. MeCab 사전이 저장된 디렉토리는 환경에 따라 다르므로 각각 디렉토리 위치를 확인해 두는 것 (많은 경우/usr/local/lib/mecab/dic/ipadic 안에 있다)
3. macabrc를 다시 쓰지 않으면 사용자 사전을 실행할 때마다 경로를 통과해야합니다 (mecab -u user.dic)
에디터에서/usr/local/etc/mecabrc를 열고 다음과 같이 다시 쓰는 것
 userdic = /usr/local/lib/mecab/dic/ipadic/user.dic(左の;も消す)

【파일 설명】



1. create_dic.py (newword_list.txt에서 newword_dic.csv를 생성하는 프로그램 Python3.X 지원)

create_dic.py
if __name__ == "__main__":
        fin = open("newword_list.txt")
        fout = open("newword_dic.csv","w")
        for line in fin:
                line=line.rstrip('\n')
                word = line.split(',')
                cost = int(max(-36000, -400*len(word[0])**1.5))
                fout.write("%s,-1,-1,%d,名詞,一般,*,*,*,*,*,*,%s,%s\n" % (word[0],cost,word[1],word[1]))
        fin.close()
        fout.close()

2. newword_list.txt (신어가 들어있는 목록. 편집하는 것은 기본적으로이 텍스트 파일 만)
ソードアート・オンライン,そーどあーと・おんらいん
人類は衰退しました,じんるいはすいたいしました
魔法少女リリカルなのは,まほうしょうじょりりかるなのは
人工知能,じんこうちのう

3.newword_dic.csv(MeCab 형식의 사전)



【순서】



1.newword_list.txt에는 예와 같이 신어를 추가한다
2. newword_list.txt에서 MeCab 사전 (newword_dic.csv) 만들기
python create_dic.py
3. newword_dic.csv를 MeCab에서 사용할 수있는 형식 (.dic)으로 컴파일하고 사전에 추가
sudo /usr/local/libexec/mecab/mecab-dict-index -d /usr/local/lib/mecab/dic/ipadic -u user.dic -f utf8 -t utf8 newword_dic.csv
4. 추가한 사전을 MeCab의 시스템 사전이 있는 디렉토리로 변경
sudo mv user.dic /usr/local/lib/mecab/dic/ipadic
5. 터미널에서 mecab을 시작합니다.
 


가 되면 MeCab에 사용자 사전이 올바르게 추가되고 있다

참고문헌

좋은 웹페이지 즐겨찾기