Docker에서 JUMAN++(alpine linux)

3121 단어 alpinejuman++도커

JUMAN++이란?



구로바시・가와라 연구실 가 공개한 일본어의 형태소 해석기입니다. 이하, 사이트의 소개문

JUMAN++은 언어 모델을 이용한 고성능 형태소 해석 시스템입니다. 언어 모델로 Recurrent Neural Network Language Model (RNNLM)을 사용하여 단어 배열의 의미있는 자연성을 고려한 분석을 수행합니다. 이로 인해 JUMAN, MeCab에 비해 크게 성능이 향상되었습니다. 문법·사전·출력 포맷 등은 JUMAN 으로부터 계승한 것을 이용하고 있습니다. 이 시스템은 CREST "지식 기반 구조적 언어 처리 설정 및 지식 인프라 구축"의 지원으로 개발되었습니다.

Docker로 환경 구축



자신의 환경은 괴롭히고 싶지 않지만 시험해보고 싶다는 것으로, Docker로 시험해 보려고 생각합니다.

HOW TO


docker pull kyobad/jumanpp-alpineordocker pull kyobad/jumanpp-alpine:lightlatest와 light의 차이입니다만, 코멘트에서 지적받고, 인스톨에 사용한 코드나 Makefile을 볼 필요가 없다고 하는 분은 light 쪽이 용량이 적은 이미지로 하고 있으므로 그쪽을 사용해 주시면 좋겠습니다 .docker run -it kyobad/jumanpp-alpine
이것으로 jumanpp가 기동하고 있으므로, 적당히 일본어를 치면 결과가 돌아옵니다.


alpine 베이스로 만들고 있지만, juman++ 자체가 꽤 큰 데이터이므로 image도 커져 버리고 있습니다

참고로 한 사이트

새로운 형태소 해석기 JUMAN ++을 만져 보았지만 생각보다 고정밀도로 MeCab에서 갈아갈까 생각한 이야기

Dockerfile



Dockerfile

FROM alpine:latest

MAINTAINER K.Kato

RUN apk add --update --no-cache --virtual=build-deps \
    boost-dev g++ make \
    && wget -q http://lotus.kuee.kyoto-u.ac.jp/nl-resource/jumanpp/jumanpp-1.01.tar.xz \
    && tar Jxfv jumanpp-1.01.tar.xz \
    && cd jumanpp-1.01/ \
    && ./configure \
    && make \
    && make install \
    && cd .. \
    && rm jumanpp-1.01.tar.xz \
    && rm -rf /var/cache/* \
    && apk del build-deps \
    && apk add --update --no-cache boost 

CMD ["jumanpp"]

좋은 웹페이지 즐겨찾기