konlpy mecab 설치 window

3884 단어 NLPNLP

Konlpy 품사 태깅 클래스 속도 비교

Mecab

konlpy documnet에서 일반적으로 다운 받으면 Window에서 Mecab() 클래스를 지원하지 않습니다.

window에서 Mecab class 사용

  1. mecab-ko-msvc 설치
    1.https://github.com/Pusnow/mecab-ko-msvc/releases/tag/release-0.9.2-msvc-3
    2.pc window 버전에 맞는 파일 설치
    3.C 드라이브에 mecab 폴더 생성 : c:\mecab
    4.다운 받은 mecab-ko-msvc-x64.zip 파일을 '3'번에서 생성한 경로에 압축 해제


  2. mecab-ko-dic-msvc.zip 기본 사전 설치
    1.https://github.com/Pusnow/mecab-ko-dic-msvc/releases/tag/mecab-ko-dic-2.1.1-20180720-msvc
    2.mecab-ko-dic-msvc.zip 사전 다운로드
    3.c:\mecab 경로에 압축 풀기



  1. python wheel 설치
    1.https://github.com/Pusnow/mecab-python-msvc/releases/tag/mecab_python-0.996_ko_0.9.2_msvc-2
    2.python 버전에 맞는 whl다운로드 (ex python3.6x , widow64bit: mecab_python-0.996_ko_0.9.2_msvc-cp36-cp36m-win_amd64.whl)
    3.다운로드 받은 파일을 site-package 폴더에 옮겨놓기

    4.cmd 창으로 가상환경 접속 후 디렉토리 site-package 폴더로 이동하여 (pip install [filename].whl: pip install mecab_python-0.996_ko_0.9.2_msvc-cp36-cp36m-win_amd64.whl)




4. Python 에서 실행

위와 같이 설치를 완료 했다면 dicpath의 경로는 다음과 같습니다

from konlpy.tag import Mecab
tokenizer  = Mecab(dicpath=r"C:\mecab\mecab-ko-dic")

Konlpy의 tokenizer는 명사,품사,형태소를 기준으로 토큰화를 수행합니다.

sentence = "한국어자연어처리를위한konlpy설치완료"
nouns = mecab.nouns(sentence)
print('명사 단위:',nouns)
pos = mecab.pos(sentence)
print('품사 태깅:',pos)
morphs = mecab.morphs(sentence)
print('형태소 단위:',morphs)

좋은 웹페이지 즐겨찾기