mecab에 사람 이름 사전 추가
인터넷에서 참고 사이트가 많이 있지만, 일단 python3에서 해 보았다.
인명 사전
무료 IME · ATOK 사용자 사전 링크 모음
여기에서 손에 있었다.
txt 격식에서
あい "亜衣":姓
와 같이 거기서, mecab용의 csv 격식 변환한다.表層形,左文脈ID,右文脈ID,コスト,品詞,品詞細分類1,品詞細分類2,品詞細分類3,活用形,活用型,原形,読み,発音
같이 하고 싶다.직접 Excel에서 구분 기호를 지정하여 csv 파일을 만드는 한 가지 방법.
그리고 위와 같이 편집한다.
정보 기초의 지식입니다.
파이썬으로 하면
\#!/usr/bin/env python
\# -*- coding: utf-8 -*-
import sys
import re
def Dic():
dic_file = open('sei.txt','r')
lines = dic_file.readlines()
dic_file.close()
for line in lines:
sword = line.split("\t")
kana = sword[0].strip()
word = sword[1].strip()
cost = str(max(-36000,8000-len(word)**500)) #コスト要検討
print(word+",,,"+cost+",名詞,固有名詞,人名,姓,*,*,"+word+","+kana+","+kana+"追加")
if __name__ == '__main__':
Dic()
좌우 컨텍스트 ID
왼쪽과 오른쪽의 컨텍스트 ID가 mecab 버전에 따라 다르다.
비워두면 mecab-dict-index가 자동으로 ID를 부여합니다.
라고 쓰고 있기 때문에 빈
비용
h tp // w w. mw 그 ft. jp / p 여과 라민 g / 무노 / 메카 b_ 하테나. HTML
부터
cost = -400 * word.split(//u).size ** 1.5
라고 하는 계산 방법 있는데, 부의 수가 뿐으로 제대로 나오는지가 걱정, 공식 사이트 보면,
비용 자동 추정 기능
있다.
또
-a 옵션을 사용하면 비용 값과 컨텍스트 ID가 빈 CSV 파일에 자동으로 채워져 새 CSV를 만들 수 있습니다.
둘 다 시도
추가 대상
단어를 추가하는 방법
시스템 사전에 추가
Reference
이 문제에 관하여(mecab에 사람 이름 사전 추가), 우리는 이곳에서 더 많은 자료를 발견하고 링크를 클릭하여 보았다 https://qiita.com/Prismo/items/5636cdaafe62e0be65d8텍스트를 자유롭게 공유하거나 복사할 수 있습니다.하지만 이 문서의 URL은 참조 URL로 남겨 두십시오.
우수한 개발자 콘텐츠 발견에 전념 (Collection and Share based on the CC Protocol.)