mecab에 사람 이름 사전 추가

4555 단어 Python3mecab
python3에서 추가하고 보았습니다.

인터넷에서 참고 사이트가 많이 있지만, 일단 python3에서 해 보았다.

인명 사전



무료 IME · ATOK 사용자 사전 링크 모음

여기에서 손에 있었다.
txt 격식에서 あい "亜衣":姓 와 같이 거기서, mecab용의 csv 격식 변환한다.表層形,左文脈ID,右文脈ID,コスト,品詞,品詞細分類1,品詞細分類2,品詞細分類3,活用形,活用型,原形,読み,発音 같이 하고 싶다.

직접 Excel에서 구분 기호를 지정하여 csv 파일을 만드는 한 가지 방법.



그리고 위와 같이 편집한다.
정보 기초의 지식입니다.

파이썬으로 하면

\#!/usr/bin/env python
\# -*- coding: utf-8 -*-

import sys
import re

def Dic():
    dic_file = open('sei.txt','r')
    lines = dic_file.readlines()
    dic_file.close()

    for line in lines: 
        sword = line.split("\t")
        kana = sword[0].strip()
        word = sword[1].strip()
        cost = str(max(-36000,8000-len(word)**500)) #コスト要検討
        print(word+",,,"+cost+",名詞,固有名詞,人名,姓,*,*,"+word+","+kana+","+kana+"追加")


if __name__ == '__main__':
    Dic()

좌우 컨텍스트 ID



왼쪽과 오른쪽의 컨텍스트 ID가 mecab 버전에 따라 다르다.

비워두면 mecab-dict-index가 자동으로 ID를 부여합니다.
라고 쓰고 있기 때문에 빈

비용



h tp // w w. mw 그 ft. jp / p 여과 라민 g / 무노 / 메카 b_ 하테나. HTML
부터 cost = -400 * word.split(//u).size ** 1.5
라고 하는 계산 방법 있는데, 부의 수가 뿐으로 제대로 나오는지가 걱정, 공식 사이트 보면,

비용 자동 추정 기능

있다.


-a 옵션을 사용하면 비용 값과 컨텍스트 ID가 빈 CSV 파일에 자동으로 채워져 새 CSV를 만들 수 있습니다.

둘 다 시도

추가 대상



단어를 추가하는 방법

시스템 사전에 추가

좋은 웹페이지 즐겨찾기