Windows에서 NEologd 사전을 비교적 쉽게 넣는 방법 - 사용자 사전

소개



MeCab의 형태소 해석용의 사전의 NEologd 사전을 도입에 WSL(Windows Subsystem for Linux)+Ubuntu를 사용하고 있었습니다만, git for Windows와 7-zip으로 비교적 간단하게 도입할 수 있었습니다.

2020/2/10 추가
이것은 사용자 사전편입니다.
사용자 사전에서 상당한 고유 명사를 구문 분석 할 수 있습니다.
시스템 사전에 대해서는 아래 링크를 참조하십시오.
htps : // m / 진 cjp / ms / 491f1712 a701 d91 a4f

환경



Windows10 64bit 언어: 일본어
MeCab 0.996-32bit

소개하는 것



git for Windows 2.20.1 64-bit
7-Zip 18.06 64-bit

도입 절차



MeCab에 PATH를 통과



MeCab 실행 파일이 있는 다음 폴더를 환경 변수를 설정하고 PATH를 통과시킨다.
C:\Program Files (x86)\MeCab\bin

7-zip 설치 및 환경 변수 설정



7-zip 설치



다운로드 한 NEologd 사전은 xz 형식으로 압축되어 있으므로 7-zip을 사용하여 배포합니다.
아래 사이트에서 7-zip 64bit를 다운로드하여 설치.
h tps : // 세이지 p. 오 sd. jp/

7-zip에 PATH를 통과



다음을 환경 변수로 설정
C:\Program Files\7-Zip

git for Windows 설치



아래 사이트를 참고하여 git for Windows 64bit 설치하기
htps : // 코 m / 타이 폰로 ck / ms / 632c117220 57d555099

NEologd 사전 다운로드 및 컴파일



git에서 사전 다운로드



관리자로 명령 프롬프트 시작 다음 명령으로 작업 폴더로 이동
cd %homepath%

그런 다음 다음 명령으로 NEologd 사전 다운로드
git clone --depth 1 https://github.com/neologd/mecab-ipadic-neologd.git

NEologd 사전 파일 확인



명령 프롬프트에서 다음 명령으로 C:\Users(사용자 이름)\mecab-ipadic-neologd\seed로 이동하여 파일을 확인.
cd mecab-ipadic-neologd\seed
dir



NEologd 사전 파일 배포



이러한 .csv.xz 파일을 다음 명령으로 7-zip으로 확장합니다.
7z X *.xz

사전 파일 컴파일



SHIFT-JIS 사전 작성



다음 명령을 사용하여 SHIFT-JIS 사전 (NEologd.date.dic)을 만들고 MeCab의 사전 폴더로 이동합니다.
아래 명령 내 NEologd.20190128.dic 및 mecab-user-dict-seed.20190128.csv
"20190128"은 사전 파일에 대한 날짜입니다.
다운로드한 것과 맞추세요.
mecab-dict-index -d "c:\Program Files (x86)\MeCab\dic\ipadic" -u NEologd.20190128.dic -f utf-8 -t shift-jis mecab-user-dict-seed.20190128.csv

mkdir "C:\Program Files (x86)\MeCab\dic\NEologd"

move NEologd.20190128.dic "C:\Program Files (x86)\MeCab\dic\NEologd"

mecabrc 파일 편집



mecab 사전은 C:\Program Files (x86)\MeCab\etc에 있는 mecabrc에서 지정할 수 있다.
다음 설명은 mecabrc에 설명되어 있으며 NEologd 사전은 사용자 사전으로 설정됩니다.
dicdir = $(rcpath)..\dic\ipadic
userdic = C:\Program Files (x86)\MeCab\dic\NEologd\Neologd.20190128.dic

UTF-8 사전 만들기



파이썬에서는 UTF-8 사전이 필요하기 때문에 다음 명령으로 UTF-8 사전(NEologd.date-u.dic)을 작성한다.
mecab-dict-index -d "c:\Program Files (x86)\MeCab\dic\ipadic-UTF8" -u NEologd.20190128-u.dic -f utf-8 -t utf-8 mecab-user-dict-seed.20190128.csv

mkdir "C:\Program Files (x86)\MeCab\dic\NEologd"

move NEologd.20190128-u.dic "C:\Program Files (x86)\MeCab\dic\NEologd"

mecabrc 파일 편집



UTF-8에 대한 mecabrc-u 파일을 만들고 다음 설명에서 NEologd 사전을 사용자 사전으로 설정합니다.
dicdir = $(rcpath)..\dic\ipadic-UTF8
userdic = C:\Program Files (x86)\MeCab\dic\NEologd\NEologd.20190128-u.dic

해석의 실행은 이하 사이트를 참고로 「케야키자카46이 붉은 여우를 먹고 있다.」등의 문장으로 해석해 주세요.



참고



NEologd 사전 URL

편집 내역



2020/02/11
경로 이름을 표기를 변경했습니다. 편집 전의 표기로도 문제 없습니다만 최근의 알기 쉬움을 우선했습니다.
(편집 전) c:\PROGRA~2\MeCab\dic\ipadic
(편집 후) "c:\Program Files (x86)\MeCab\dic\ipadic"

좋은 웹페이지 즐겨찾기