mecab에 사람 이름 사전 추가

python3에서 추가하고 보았습니다.

인터넷에서 참고 사이트가 많이 있지만, 일단 python3에서 해 보았다.

인명 사전

무료 IME · ATOK 사용자 사전 링크 모음

여기에서 손에 있었다.
txt 격식에서 あい "亜衣":姓 와 같이 거기서, mecab용의 csv 격식 변환한다.

表層形,左文脈ID,右文脈ID,コスト,品詞,品詞細分類1,品詞細分類2,品詞細分類3,活用形,活用型,原形,読み,発音

같이 하고 싶다.

직접 Excel에서 구분 기호를 지정하여 csv 파일을 만드는 한 가지 방법.

그리고 위와 같이 편집한다.
정보 기초의 지식입니다.

파이썬으로 하면


\#!/usr/bin/env python
\# -*- coding: utf-8 -*-

import sys
import re

def Dic():
    dic_file = open('sei.txt','r')
    lines = dic_file.readlines()
    dic_file.close()

    for line in lines: 
        sword = line.split("\t")
        kana = sword[0].strip()
        word = sword[1].strip()
        cost = str(max(-36000,8000-len(word)**500)) #コスト要検討
        print(word+",,,"+cost+",名詞,固有名詞,人名,姓,*,*,"+word+","+kana+","+kana+"追加")


if __name__ == '__main__':
    Dic()

좌우 컨텍스트 ID

왼쪽과 오른쪽의 컨텍스트 ID가 mecab 버전에 따라 다르다.

비워두면 mecab-dict-index가 자동으로 ID를 부여합니다.
라고 쓰고 있기 때문에 빈

비용

h tp // w w. mw 그 ft. jp / p 여과 라민 g / 무노 / 메카 b_ 하테나. HTML
부터 cost = -400 * word.split(//u).size ** 1.5
라고 하는 계산 방법 있는데, 부의 수가 뿐으로 제대로 나오는지가 걱정, 공식 사이트 보면,

비용 자동 추정 기능

있다.
또

-a 옵션을 사용하면 비용 값과 컨텍스트 ID가 빈 CSV 파일에 자동으로 채워져 새 CSV를 만들 수 있습니다.

둘 다 시도

추가 대상

단어를 추가하는 방법

시스템 사전에 추가

Reference

이 문제에 관하여(mecab에 사람 이름 사전 추가), 우리는 이곳에서 더 많은 자료를 발견하고 링크를 클릭하여 보았다 https://qiita.com/Prismo/items/5636cdaafe62e0be65d8

텍스트를 자유롭게 공유하거나 복사할 수 있습니다.하지만 이 문서의 URL은 참조 URL로 남겨 두십시오.

우수한 개발자 콘텐츠 발견에 전념 (Collection and Share based on the CC Protocol.)

좋은 웹페이지 즐겨찾기

개발자 우수 사이트 수집

개발자가 알아야 할 필수 사이트 100선 추천 우리는 당신을 위해 100개의 자주 사용하는 개발자 학습 사이트를 정리했습니다