WSL로 Kuromoji.js에 단어 추가

참고 자료



WSL 설치
htps : // 코 m /있는 고양이 / ms / c79810b0b015be bf30b

WSL 재설정
htps //w w. 오 t r t. 이. jp / ai t / archi c0s / 1807/06 / 네 ws028. HTML

Mecab 설치
htp : /// ch-b ぉg. 낙서 s. 이. jp / 엔트리 / 2018/03/27/124418 # 메카 b % 에 3 % 81 % 네 % 에 5 % B0 % 8 에 % 5 % 85 % 5 % 에 3 % 81 % 에 % 에 5 % 89 %8D%에3%81%아 B%5C

UTF-8 변환/사전 작성
htps : // bg. 아빠 r. jp/ぃぬ x/2796/

Kuromoji.js에 등록
htps : // 이 m/무라켄 720/있어 ms/d67c8dc32138베7b3f8

절차



Mecab 설치


sudo apt update
sudo apt upgrade
sudo apt install make automake autoconf autotools-dev m4 mecab libmecab-dev mecab-ipadic-utf8 npm

동작 확인


echo "人事を尽くして天命を待つ" | mecab

작업 디렉토리 작성


mkdir ~/mecab_work
cd ~/mecab_work

사전 및 모델 다운로드



웹상의 정보라면 URL이 잘못되어 있는 경우가 많다.
커멘드는 기재하지만, 정규의 URL은 이하로부터 따릅니다.
htps : // 타쿠 910. 기주 b. 이오 / 메카 b / # 도 w 응 아 d


htps : // 타쿠 910. 기주 b. 이오/메카 b/ぢc. HTML

wget -O  mecab-ipadic-2.7.0-20070801.tar.gz "https://drive.google.com/uc?export=download&id=0B4y35FiV1wh7MWVlSDBCSXZMTXM"

wget -O mecab-ipadic-2.7.0-20070801.model.bz2 "https://drive.google.com/uc?export=download&id=0B4y35FiV1wh7bnc5aFZSTE9qNnM"
tar xvzf mecab-ipadic-2.7.0-20070801.tar.gz
nkf --overwrite -Ew mecab-ipadic-2.7.0-20070801/*
cd mecab-ipadic-2.7.0-20070801/
/usr/lib/mecab/mecab-dict-index -f utf-8 -t utf-8
bzip2 -d mecab-ipadic-2.7.0-20070801.model.bz2
nkf --overwrite -Ew mecab-ipadic-2.7.0-20070801.model
# charsetを修正する
vi mecab-ipadic-2.7.0-20070801.model
# charset: euc-jp ⇒ UTF-8

파일 작성



person_name_tmp.csv
坂部卯太郎,,,,名詞,固有名詞,*,*,*,*,坂部卯太郎,サカベウタロウ,サカベウタロウ,(追加単語)

비용 계산


/usr/lib/mecab/mecab-dict-index \
-m mecab-ipadic-2.7.0-20070801.model \
-d mecab-ipadic-2.7.0-20070801 \
-u person_name.csv \
-f utf8 -t utf8 \
-a person_name_tmp.csv

사전 만들기



1. 쿠로모지 다운로드
git clone https://github.com/takuyaa/kuromoji.js.git
/usr/bin/npm install

작성한 사전 파일
kuromoji.js/node_modules/mecab-ipadic-seed/lib/dict에 복사

npm run build-dict
에서 dict 디렉토리에 생성됩니다.
* build-dict를 보면 mecab-ipadic-seed에서 사전 데이터를 만들고있었습니다.

좋은 웹페이지 즐겨찾기