Cabocha 환경을 Windows에서 Docker를 사용하여 손쉽게 구축
처음은 Windows상에 직접 구축하려고 했습니다만, 64bit의 Windows에서는 좌절했습니다(가능할지도 모릅니다만, 시간을 걸고 싶지 않았기 때문에 Docker 사용했습니다). Cabocha가 32bit의 Mecab을 참조해 버려, 에러가 되기 때문입니다.
그건 그렇고, 다른 PC의 Windows10 환경에서는 WSL에 Cabocha를 설치했습니다. WSL에 직접 설치하는 것보다 Docker로 pull하는 것이 쉽네요.
참고 링크
자연 언어 처리 100개 노크를 Windows/Python3로 제5장을 풀다
MeCab 공식 사이트
형태소 분석 wikipedia : 문장을 분해합니다. 일본어는 영어 같은 스페이스 구분이 아니기 때문에 힘들다.
구문 분석 wikipedia : 관계해석 해석은 아니지만・・・.
초보자용 Docker 기본 명령 일람(신구 스타일 대응) : 오래간만의 Docker였기 때문에 과거의 자신의 기사를 보면서 Docker를 움직였습니다.
기사「타키자와 카렌의 이해할 수 없는 문장을 언어 해석해 보았다.」 : 재미있는 기사였습니다
환경
종류
버전
내용
OS
Windows8 64bit
집 PC이므로 Windows 8.1입니다.
도커
Docker Toolbox
설치는 "Windows 8.1에서 Docker Toolbox를 설치하고 Docker를 실행"
설치 절차
1. Docker Hub에서 Pull
Docker Hub의 dockeryama/docker.cabocha을 사용했습니다. 다양한 Repository를 정밀하게 정한 것은 아니고, 환경 구축을 빨리 끝내고 싶었기 때문에 적당하게 선택하고 있습니다. 더 최적의 리포지토리가 있을 수 있습니다.
Docker Quickstart Terminal을 시작하고 Repository를 pull합니다.
docker pull dockeryama/docker.cabocha
이미지를 확인합니다.
docker images
2. Docker container 만들기
Pull 한 이미지 "dockeryama/docker.cabocha"에서 "cabocha"라는 이름의 컨테이너를 만들고 컨테이너 목록을 표시합니다.
docker container create -it --name cabocha dockeryama/docker.cabocha
docker container ls -a
3. 확인
Windows 10 미만의 Docker Quickstart Terminal에서는 일본어 표시 할 수없는 것 같습니다. 그래서 파일을 사용하여 cabocha를 이동합니다.
3.1. 파일 복사
번거롭지만 로컬 PC의 파일을 컨테이너에 복사합니다. 파일내에는 이하의 문장을 쓰고 있습니다.
"나는 기차를 좋아한다."
docker container cp sample.txt cabocha:tmp
3.2. Cabocha 실행에 의한 인계 해석
우선은 container 기동해 bash 실행.
docker container start cabocha
docker container exec -it cabocha bash
tmp 폴더로 이동하여 cabocha를 실행합니다.
cd tmp
cabocha <sample.txt> sample_out.txt
3.3. Cabocha 해석 결과 확인
이탈로 컨테이너를 빠져 나갑니다.
exit
Docker 파일을 로컬 PC의 tmp 폴더에 복사합니다. 귀찮아.
docker container cp cabocha:tmp/sample_out.txt /tmp
파일을 Windows상에서 보면 형태소 해석되어 관계가 되어 있는 것을 확인할 수 있습니다 (예문이 조금 나쁘고 이해하기 어렵다 ).
cabocha 실행 옵션
덧붙여서 cabocha 실행시 f1 옵션을 추가하면 자세한 결과가 나옵니다. 옵션에 대해서는 "CaboCha/남즙: Yet Another Japanese Dependency Structure Analyzer"를 참조해 주세요.
cabocha -f1 <sample.txt> sample_out_f1.txt
Reference
이 문제에 관하여(Cabocha 환경을 Windows에서 Docker를 사용하여 손쉽게 구축), 우리는 이곳에서 더 많은 자료를 발견하고 링크를 클릭하여 보았다
https://qiita.com/FukuharaYohei/items/3b33dc16e84780e43a76
텍스트를 자유롭게 공유하거나 복사할 수 있습니다.하지만 이 문서의 URL은 참조 URL로 남겨 두십시오.
우수한 개발자 콘텐츠 발견에 전념
(Collection and Share based on the CC Protocol.)
1. Docker Hub에서 Pull
Docker Hub의 dockeryama/docker.cabocha을 사용했습니다. 다양한 Repository를 정밀하게 정한 것은 아니고, 환경 구축을 빨리 끝내고 싶었기 때문에 적당하게 선택하고 있습니다. 더 최적의 리포지토리가 있을 수 있습니다.
Docker Quickstart Terminal을 시작하고 Repository를 pull합니다.
docker pull dockeryama/docker.cabocha
이미지를 확인합니다.
docker images
2. Docker container 만들기
Pull 한 이미지 "dockeryama/docker.cabocha"에서 "cabocha"라는 이름의 컨테이너를 만들고 컨테이너 목록을 표시합니다.
docker container create -it --name cabocha dockeryama/docker.cabocha
docker container ls -a
3. 확인
Windows 10 미만의 Docker Quickstart Terminal에서는 일본어 표시 할 수없는 것 같습니다. 그래서 파일을 사용하여 cabocha를 이동합니다.
3.1. 파일 복사
번거롭지만 로컬 PC의 파일을 컨테이너에 복사합니다. 파일내에는 이하의 문장을 쓰고 있습니다.
"나는 기차를 좋아한다."
docker container cp sample.txt cabocha:tmp
3.2. Cabocha 실행에 의한 인계 해석
우선은 container 기동해 bash 실행.
docker container start cabocha
docker container exec -it cabocha bash
tmp 폴더로 이동하여 cabocha를 실행합니다.
cd tmp
cabocha <sample.txt> sample_out.txt
3.3. Cabocha 해석 결과 확인
이탈로 컨테이너를 빠져 나갑니다.
exit
Docker 파일을 로컬 PC의 tmp 폴더에 복사합니다. 귀찮아.
docker container cp cabocha:tmp/sample_out.txt /tmp
파일을 Windows상에서 보면 형태소 해석되어 관계가 되어 있는 것을 확인할 수 있습니다 (예문이 조금 나쁘고 이해하기 어렵다 ).
cabocha 실행 옵션
덧붙여서 cabocha 실행시 f1 옵션을 추가하면 자세한 결과가 나옵니다. 옵션에 대해서는 "CaboCha/남즙: Yet Another Japanese Dependency Structure Analyzer"를 참조해 주세요.
cabocha -f1 <sample.txt> sample_out_f1.txt
Reference
이 문제에 관하여(Cabocha 환경을 Windows에서 Docker를 사용하여 손쉽게 구축), 우리는 이곳에서 더 많은 자료를 발견하고 링크를 클릭하여 보았다
https://qiita.com/FukuharaYohei/items/3b33dc16e84780e43a76
텍스트를 자유롭게 공유하거나 복사할 수 있습니다.하지만 이 문서의 URL은 참조 URL로 남겨 두십시오.
우수한 개발자 콘텐츠 발견에 전념
(Collection and Share based on the CC Protocol.)
cabocha -f1 <sample.txt> sample_out_f1.txt
Reference
이 문제에 관하여(Cabocha 환경을 Windows에서 Docker를 사용하여 손쉽게 구축), 우리는 이곳에서 더 많은 자료를 발견하고 링크를 클릭하여 보았다 https://qiita.com/FukuharaYohei/items/3b33dc16e84780e43a76텍스트를 자유롭게 공유하거나 복사할 수 있습니다.하지만 이 문서의 URL은 참조 URL로 남겨 두십시오.
우수한 개발자 콘텐츠 발견에 전념 (Collection and Share based on the CC Protocol.)