mecab 사전을 자동 비용으로 작성
5478 단어 mecab
개요
mecab 사전을 자동 비용으로 작성합니다.
비용이 무엇인지는 구그 받기로 하고, 여기에서는 작성 방법 밖에 쓰지 않습니다.
누군가 코멘트 등으로 보충받을 수 있기를 기대!
추가
Google 코드 호스팅이 종료되었거나 아래 방법으로 다운로드할 수 없습니다.
본가에 기재된 Google Drive에서 삭제하세요.
MeCab: Yet Another Part-of-Speech and Morphological Analyzer
준비
mecab
원래 mecab을 넣지 않으면 안되기 때문에 mecab을 넣습니다.
그렇다고해도 내 경우에는 mroonga를 사용하고있는 것을하고 있기 때문에 mroonga의 mecab을 이용합니다.
그래서 mroonga의 저장소를 사용하십시오.
% sudo yum install -y http://packages.groonga.org/centos/groonga-release-1.1.0-1.noarch.rpm
% sudo yum makecache
% sudo yum install -y mecab mecab-ipadic mecab-devel
모델 파일
사전 작성 시에는 어느 정도의 어휘 비용을 기록하는 모델 파일이 필요합니다.
mecab의 배포처에서 모델 파일도 배포하고 있기 때문에 그것을 이용합니다.
아이로. 5 ぇ. 작은 m
테스트이므로이 파일을/tmp 폴더 등에 다운로드하여 압축을 해제하십시오.
문자 코드도 utf-8로 하고 싶기 때문에, 그 쪽도 꼬집습니다.
% cd /tmp
% wget https://mecab.googlecode.com/files/mecab-ipadic-2.7.0-20070801.model.bz2
% bzip2 -d mecab-ipadic-2.7.0-20070801.model.bz2
% vi ./mecab-ipadic-2.7.0-20070801.model #6行目を「charset: utf-8」に書き換えてください
% nkf -w --overwrite ./mecab-ipadic-2.7.0-20070801.model #文字コードをutf-8へ変換
사전 작성 설정 파일
사전을 만들 때 비용과 어휘를 파싱하는 방법을 제어하는 구성 파일이 있으므로 준비합니다.
이것도 mecab 배포 대상이므로 떨어집니다.
아이로. 5 ぇ. 작은 m
테스트이므로, 이것도/tmp등에 떨어뜨려 주세요.
이것도 문자열이 euc-jp가 되어 있으므로 utf-8로 변환하는 처리가 필요합니다.
% cd /tmp
% wget https://mecab.googlecode.com/files/mecab-ipadic-2.7.0-20070801.tar.gz
% tar zxfv ./mecab-ipadic-2.7.0-20070801.tar.gz
% cd ./mecab-ipadic-2.7.0-20070801
% nkf -w --overwrite ./*.def
% ./configure
% make
샘플 사전 데이터
뭐든지 좋다.
제 경우에는 Wikipedia의 기사 제목을 사전으로 등록하고 있습니다.
그 때, Wikipedia.csv로서 다음과 같은 느낌으로 준비하고 있습니다.
이 때, 2~4열째에 코스트를 기술해 두면 기술된 코스트를 우선해 사전이 만들어지는 것 같습니다.
Wikipedia.csv"ラジオマン",,,,名詞,一般,*,*,*,*,*,*,*,wikiepdia_title
"ラジオマンジャック",,,,名詞,一般,*,*,*,*,*,*,*,wikiepdia_title
"ラジオミセス",,,,名詞,一般,*,*,*,*,*,*,*,wikiepdia_title
사전 만들기
디렉토리 구조는 다음과 같습니다.
% cd /tmp
% tree -P *.def\|*.model
├── mecab-ipadic-2.7.0-20070801
│ ├── char.def
│ ├── feature.def
│ ├── left-id.def
│ ├── matrix.def
│ ├── pos-id.def
│ ├── rewrite.def
│ ├── right-id.def
│ └── unk.def
├── mecab-ipadic-2.7.0-20070801.model
└── Wikipedia.csv
이러한 디렉토리 구조의 경우, 다음과 같은 명령은 비용을 자동으로 추정하여 사전을 작성합니다.
% pwd
/tmp
# コストの出力(辞書作成ではないです!)
% /usr/libexec/mecab/mecab-dict-index -m ./mecab-ipadic-2.7.0-20070801.model -d ./mecab-ipadic-2.7.0-20070801 -u ./Wikipedia.dic -f utf-8 -t utf-8 -a ./Wikipedia.csv
% cat ./Wikipedia.dic
・・・
ラジオマン,1285,1285,8922,名詞,一般,*,*,*,*,*,*,*,wikiepdia_title
ラジオマンジャック,1285,1285,8922,名詞,一般,*,*,*,*,*,*,*,wikiepdia_title
ラジオミセス,1285,1285,8922,名詞,一般,*,*,*,*,*,*,*,wikiepdia_title
・・・
# 辞書作成
% /usr/libexec/mecab/mecab-dict-index -m ./mecab-ipadic-2.7.0-20070801.model -d ./mecab-ipadic-2.7.0-20070801 -u ./Wikipedia.dic -f utf-8 -t utf-8 ./Wikipedia.csv
그리고/etc/mecabrc의 uerdic라든지로 잘 부탁드립니다.
def 파일을 이런 식으로 하면 굉장히 좋은 느낌이 될거야! 라든지, 원래 비용이란···. 라고 하는 어드바이스등이 있으면 코멘트해 주시면 공부할 수 있기 때문에 고맙습니다.
Reference
이 문제에 관하여(mecab 사전을 자동 비용으로 작성), 우리는 이곳에서 더 많은 자료를 발견하고 링크를 클릭하여 보았다
https://qiita.com/wakisuke/items/d15b5defc1aad61cc910
텍스트를 자유롭게 공유하거나 복사할 수 있습니다.하지만 이 문서의 URL은 참조 URL로 남겨 두십시오.
우수한 개발자 콘텐츠 발견에 전념
(Collection and Share based on the CC Protocol.)
Google 코드 호스팅이 종료되었거나 아래 방법으로 다운로드할 수 없습니다.
본가에 기재된 Google Drive에서 삭제하세요.
MeCab: Yet Another Part-of-Speech and Morphological Analyzer
준비
mecab
원래 mecab을 넣지 않으면 안되기 때문에 mecab을 넣습니다.
그렇다고해도 내 경우에는 mroonga를 사용하고있는 것을하고 있기 때문에 mroonga의 mecab을 이용합니다.
그래서 mroonga의 저장소를 사용하십시오.
% sudo yum install -y http://packages.groonga.org/centos/groonga-release-1.1.0-1.noarch.rpm
% sudo yum makecache
% sudo yum install -y mecab mecab-ipadic mecab-devel
모델 파일
사전 작성 시에는 어느 정도의 어휘 비용을 기록하는 모델 파일이 필요합니다.
mecab의 배포처에서 모델 파일도 배포하고 있기 때문에 그것을 이용합니다.
아이로. 5 ぇ. 작은 m
테스트이므로이 파일을/tmp 폴더 등에 다운로드하여 압축을 해제하십시오.
문자 코드도 utf-8로 하고 싶기 때문에, 그 쪽도 꼬집습니다.
% cd /tmp
% wget https://mecab.googlecode.com/files/mecab-ipadic-2.7.0-20070801.model.bz2
% bzip2 -d mecab-ipadic-2.7.0-20070801.model.bz2
% vi ./mecab-ipadic-2.7.0-20070801.model #6行目を「charset: utf-8」に書き換えてください
% nkf -w --overwrite ./mecab-ipadic-2.7.0-20070801.model #文字コードをutf-8へ変換
사전 작성 설정 파일
사전을 만들 때 비용과 어휘를 파싱하는 방법을 제어하는 구성 파일이 있으므로 준비합니다.
이것도 mecab 배포 대상이므로 떨어집니다.
아이로. 5 ぇ. 작은 m
테스트이므로, 이것도/tmp등에 떨어뜨려 주세요.
이것도 문자열이 euc-jp가 되어 있으므로 utf-8로 변환하는 처리가 필요합니다.
% cd /tmp
% wget https://mecab.googlecode.com/files/mecab-ipadic-2.7.0-20070801.tar.gz
% tar zxfv ./mecab-ipadic-2.7.0-20070801.tar.gz
% cd ./mecab-ipadic-2.7.0-20070801
% nkf -w --overwrite ./*.def
% ./configure
% make
샘플 사전 데이터
뭐든지 좋다.
제 경우에는 Wikipedia의 기사 제목을 사전으로 등록하고 있습니다.
그 때, Wikipedia.csv로서 다음과 같은 느낌으로 준비하고 있습니다.
이 때, 2~4열째에 코스트를 기술해 두면 기술된 코스트를 우선해 사전이 만들어지는 것 같습니다.
Wikipedia.csv"ラジオマン",,,,名詞,一般,*,*,*,*,*,*,*,wikiepdia_title
"ラジオマンジャック",,,,名詞,一般,*,*,*,*,*,*,*,wikiepdia_title
"ラジオミセス",,,,名詞,一般,*,*,*,*,*,*,*,wikiepdia_title
사전 만들기
디렉토리 구조는 다음과 같습니다.
% cd /tmp
% tree -P *.def\|*.model
├── mecab-ipadic-2.7.0-20070801
│ ├── char.def
│ ├── feature.def
│ ├── left-id.def
│ ├── matrix.def
│ ├── pos-id.def
│ ├── rewrite.def
│ ├── right-id.def
│ └── unk.def
├── mecab-ipadic-2.7.0-20070801.model
└── Wikipedia.csv
이러한 디렉토리 구조의 경우, 다음과 같은 명령은 비용을 자동으로 추정하여 사전을 작성합니다.
% pwd
/tmp
# コストの出力(辞書作成ではないです!)
% /usr/libexec/mecab/mecab-dict-index -m ./mecab-ipadic-2.7.0-20070801.model -d ./mecab-ipadic-2.7.0-20070801 -u ./Wikipedia.dic -f utf-8 -t utf-8 -a ./Wikipedia.csv
% cat ./Wikipedia.dic
・・・
ラジオマン,1285,1285,8922,名詞,一般,*,*,*,*,*,*,*,wikiepdia_title
ラジオマンジャック,1285,1285,8922,名詞,一般,*,*,*,*,*,*,*,wikiepdia_title
ラジオミセス,1285,1285,8922,名詞,一般,*,*,*,*,*,*,*,wikiepdia_title
・・・
# 辞書作成
% /usr/libexec/mecab/mecab-dict-index -m ./mecab-ipadic-2.7.0-20070801.model -d ./mecab-ipadic-2.7.0-20070801 -u ./Wikipedia.dic -f utf-8 -t utf-8 ./Wikipedia.csv
그리고/etc/mecabrc의 uerdic라든지로 잘 부탁드립니다.
def 파일을 이런 식으로 하면 굉장히 좋은 느낌이 될거야! 라든지, 원래 비용이란···. 라고 하는 어드바이스등이 있으면 코멘트해 주시면 공부할 수 있기 때문에 고맙습니다.
Reference
이 문제에 관하여(mecab 사전을 자동 비용으로 작성), 우리는 이곳에서 더 많은 자료를 발견하고 링크를 클릭하여 보았다
https://qiita.com/wakisuke/items/d15b5defc1aad61cc910
텍스트를 자유롭게 공유하거나 복사할 수 있습니다.하지만 이 문서의 URL은 참조 URL로 남겨 두십시오.
우수한 개발자 콘텐츠 발견에 전념
(Collection and Share based on the CC Protocol.)
% sudo yum install -y http://packages.groonga.org/centos/groonga-release-1.1.0-1.noarch.rpm
% sudo yum makecache
% sudo yum install -y mecab mecab-ipadic mecab-devel
% cd /tmp
% wget https://mecab.googlecode.com/files/mecab-ipadic-2.7.0-20070801.model.bz2
% bzip2 -d mecab-ipadic-2.7.0-20070801.model.bz2
% vi ./mecab-ipadic-2.7.0-20070801.model #6行目を「charset: utf-8」に書き換えてください
% nkf -w --overwrite ./mecab-ipadic-2.7.0-20070801.model #文字コードをutf-8へ変換
% cd /tmp
% wget https://mecab.googlecode.com/files/mecab-ipadic-2.7.0-20070801.tar.gz
% tar zxfv ./mecab-ipadic-2.7.0-20070801.tar.gz
% cd ./mecab-ipadic-2.7.0-20070801
% nkf -w --overwrite ./*.def
% ./configure
% make
"ラジオマン",,,,名詞,一般,*,*,*,*,*,*,*,wikiepdia_title
"ラジオマンジャック",,,,名詞,一般,*,*,*,*,*,*,*,wikiepdia_title
"ラジオミセス",,,,名詞,一般,*,*,*,*,*,*,*,wikiepdia_title
디렉토리 구조는 다음과 같습니다.
% cd /tmp
% tree -P *.def\|*.model
├── mecab-ipadic-2.7.0-20070801
│ ├── char.def
│ ├── feature.def
│ ├── left-id.def
│ ├── matrix.def
│ ├── pos-id.def
│ ├── rewrite.def
│ ├── right-id.def
│ └── unk.def
├── mecab-ipadic-2.7.0-20070801.model
└── Wikipedia.csv
이러한 디렉토리 구조의 경우, 다음과 같은 명령은 비용을 자동으로 추정하여 사전을 작성합니다.
% pwd
/tmp
# コストの出力(辞書作成ではないです!)
% /usr/libexec/mecab/mecab-dict-index -m ./mecab-ipadic-2.7.0-20070801.model -d ./mecab-ipadic-2.7.0-20070801 -u ./Wikipedia.dic -f utf-8 -t utf-8 -a ./Wikipedia.csv
% cat ./Wikipedia.dic
・・・
ラジオマン,1285,1285,8922,名詞,一般,*,*,*,*,*,*,*,wikiepdia_title
ラジオマンジャック,1285,1285,8922,名詞,一般,*,*,*,*,*,*,*,wikiepdia_title
ラジオミセス,1285,1285,8922,名詞,一般,*,*,*,*,*,*,*,wikiepdia_title
・・・
# 辞書作成
% /usr/libexec/mecab/mecab-dict-index -m ./mecab-ipadic-2.7.0-20070801.model -d ./mecab-ipadic-2.7.0-20070801 -u ./Wikipedia.dic -f utf-8 -t utf-8 ./Wikipedia.csv
그리고/etc/mecabrc의 uerdic라든지로 잘 부탁드립니다.
def 파일을 이런 식으로 하면 굉장히 좋은 느낌이 될거야! 라든지, 원래 비용이란···. 라고 하는 어드바이스등이 있으면 코멘트해 주시면 공부할 수 있기 때문에 고맙습니다.
Reference
이 문제에 관하여(mecab 사전을 자동 비용으로 작성), 우리는 이곳에서 더 많은 자료를 발견하고 링크를 클릭하여 보았다 https://qiita.com/wakisuke/items/d15b5defc1aad61cc910텍스트를 자유롭게 공유하거나 복사할 수 있습니다.하지만 이 문서의 URL은 참조 URL로 남겨 두십시오.
우수한 개발자 콘텐츠 발견에 전념 (Collection and Share based on the CC Protocol.)