처음으로 자연 언어 처리를 word2vec로 해 보았습니다.
자연 언어나 형태소 해석이나 word2vec등에 대해서는, 상세하게 설명해 주시는 분이 계셨으므로 그쪽을 참고로 해 주세요.
자연언어처리(NLP)란 무엇일까?
형태소 해석은 전처리의 일부인 것 같습니다. 책에 의하면 어떠한 처리를 하기 전에, 프로그램이 처리하기 쉽게 처리 대상의 데이터를 정돈하는 것을 전처리라고 하는 것 같고, 그 밖에도 태그나 기호를 제거한다(클리닝), 반각과 전각을 가지런히 한다( 정규화) 등이있는 것 같습니다.
이 책을 보면서 이번에는 실행하고 있습니다.
참고로 한 책
PC로 즐기는 스스로 움직이는 인공 지능
나카지마 노와(저)
실제로 word2vec을 사용하여 자연 언어 처리를 수행 한 절차
①word2vec 설치
②word2vec를 컴파일
③ 데이터 다운로드 및 학습
④ 학습 데이터를 들여다 본다
⑤관련어를 표시시킨다
⑥단어의 관계성을 연산해 본다
①word2vec 설치
$ git clone https:github.com/svn2github/svn2github/word2vec.git
②word2vec를 컴파일
$ cd word2vec
$ ls
# .cとあるファイルはC言語のソースファイルなのでコンパイルして実行ファイルにする
$ make
※파일 일람에 「makefile」이라고 하는 파일이 있어, 이 파일에 컴파일(빌드)의 순서가 쓰여져 있다. make 명령을 실행하면 makefile (Makefile) 파일에 따라 컴파일됩니다.
③ 데이터 다운로드 및 학습
# データをダウンロードして学習する
$ ./demo-word.sh
※학습중의 화면이 됩니다. text8 학습
④ 학습 데이터를 들여다 본다
# データの中身を見る
$ less text8
※text8(단어끼리의 관계성을 학습하기 위한 것이므로, 문장마다 구분하지 않고, 「.」도 「,」도 개행도 제거된, 약 1700만어로 이루어지는 초장문의 영문
⑤관련어 표시
# word2vecに戻る(関連語の検索を再開する)
$ ./distance vectors.bin
# 関連語を表示する
$ Enter word or sentence (EXIT to break):
france와 입력
※우측의 distance는 단어의 거리를 나타내, 수치가 클수록 관련이 가깝다
soccer와 입력
사전에 없는 단어 지정
# 関連語の検索を終了するには
$ Enter word or sentence (EXIT to break):EXIT
⑥단어의 관계성을 연산해 본다
3개의 단어 A, B, C를 입력하면, 「A와 B의 관계는 C에 대해 무엇인가」를 응답으로서 출력하고 있다
파리와 프랑스의 관계는 베를린에 대해 무엇이 될 것인가?
※결과, 독일(germany)이 되었습니다.
파리가 프랑스의 수도이기 때문에 베를린에 대한 독일이라는 대답은 예상대로되었습니다.
다만, 몇 가지 시험해 보았습니다만, 그다지 인기가 없는 단어의 경우는 정밀도가 낮아지는 것 같습니다.
관련 정보
word2vec : 단어를 벡터로 만드는 알고리즘. 실용면에서는, word2vec로 생성한 데이터를 사용해,
・문장중의 단어의 사용법이나 특징을 해석하거나 가시화하거나 한다
・검색어로 지정한 단어의 관련어 검색 결과도 아울러 표시한다
책 정보
PC로 즐기는 스스로 움직이는 인공 지능
나카지마 노와(저)
Reference
이 문제에 관하여(처음으로 자연 언어 처리를 word2vec로 해 보았습니다.), 우리는 이곳에서 더 많은 자료를 발견하고 링크를 클릭하여 보았다
https://qiita.com/ushinokomoriuta/items/f1154f410e1e6d1c10e1
텍스트를 자유롭게 공유하거나 복사할 수 있습니다.하지만 이 문서의 URL은 참조 URL로 남겨 두십시오.
우수한 개발자 콘텐츠 발견에 전념
(Collection and Share based on the CC Protocol.)
①word2vec 설치
②word2vec를 컴파일
③ 데이터 다운로드 및 학습
④ 학습 데이터를 들여다 본다
⑤관련어를 표시시킨다
⑥단어의 관계성을 연산해 본다
①word2vec 설치
$ git clone https:github.com/svn2github/svn2github/word2vec.git
②word2vec를 컴파일
$ cd word2vec
$ ls
# .cとあるファイルはC言語のソースファイルなのでコンパイルして実行ファイルにする
$ make
※파일 일람에 「makefile」이라고 하는 파일이 있어, 이 파일에 컴파일(빌드)의 순서가 쓰여져 있다. make 명령을 실행하면 makefile (Makefile) 파일에 따라 컴파일됩니다.
③ 데이터 다운로드 및 학습
# データをダウンロードして学習する
$ ./demo-word.sh
※학습중의 화면이 됩니다. text8 학습
④ 학습 데이터를 들여다 본다
# データの中身を見る
$ less text8
※text8(단어끼리의 관계성을 학습하기 위한 것이므로, 문장마다 구분하지 않고, 「.」도 「,」도 개행도 제거된, 약 1700만어로 이루어지는 초장문의 영문
⑤관련어 표시
# word2vecに戻る(関連語の検索を再開する)
$ ./distance vectors.bin
# 関連語を表示する
$ Enter word or sentence (EXIT to break):
france와 입력
※우측의 distance는 단어의 거리를 나타내, 수치가 클수록 관련이 가깝다
soccer와 입력
사전에 없는 단어 지정
# 関連語の検索を終了するには
$ Enter word or sentence (EXIT to break):EXIT
⑥단어의 관계성을 연산해 본다
3개의 단어 A, B, C를 입력하면, 「A와 B의 관계는 C에 대해 무엇인가」를 응답으로서 출력하고 있다
파리와 프랑스의 관계는 베를린에 대해 무엇이 될 것인가?
※결과, 독일(germany)이 되었습니다.
파리가 프랑스의 수도이기 때문에 베를린에 대한 독일이라는 대답은 예상대로되었습니다.
다만, 몇 가지 시험해 보았습니다만, 그다지 인기가 없는 단어의 경우는 정밀도가 낮아지는 것 같습니다.
관련 정보
word2vec : 단어를 벡터로 만드는 알고리즘. 실용면에서는, word2vec로 생성한 데이터를 사용해,
・문장중의 단어의 사용법이나 특징을 해석하거나 가시화하거나 한다
・검색어로 지정한 단어의 관련어 검색 결과도 아울러 표시한다
책 정보
PC로 즐기는 스스로 움직이는 인공 지능
나카지마 노와(저)
Reference
이 문제에 관하여(처음으로 자연 언어 처리를 word2vec로 해 보았습니다.), 우리는 이곳에서 더 많은 자료를 발견하고 링크를 클릭하여 보았다
https://qiita.com/ushinokomoriuta/items/f1154f410e1e6d1c10e1
텍스트를 자유롭게 공유하거나 복사할 수 있습니다.하지만 이 문서의 URL은 참조 URL로 남겨 두십시오.
우수한 개발자 콘텐츠 발견에 전념
(Collection and Share based on the CC Protocol.)
# word2vecに戻る(関連語の検索を再開する)
$ ./distance vectors.bin
# 関連語を表示する
$ Enter word or sentence (EXIT to break):
# 関連語の検索を終了するには
$ Enter word or sentence (EXIT to break):EXIT
3개의 단어 A, B, C를 입력하면, 「A와 B의 관계는 C에 대해 무엇인가」를 응답으로서 출력하고 있다
파리와 프랑스의 관계는 베를린에 대해 무엇이 될 것인가?
※결과, 독일(germany)이 되었습니다.
파리가 프랑스의 수도이기 때문에 베를린에 대한 독일이라는 대답은 예상대로되었습니다.
다만, 몇 가지 시험해 보았습니다만, 그다지 인기가 없는 단어의 경우는 정밀도가 낮아지는 것 같습니다.
관련 정보
word2vec : 단어를 벡터로 만드는 알고리즘. 실용면에서는, word2vec로 생성한 데이터를 사용해,
・문장중의 단어의 사용법이나 특징을 해석하거나 가시화하거나 한다
・검색어로 지정한 단어의 관련어 검색 결과도 아울러 표시한다
책 정보
PC로 즐기는 스스로 움직이는 인공 지능
나카지마 노와(저)
Reference
이 문제에 관하여(처음으로 자연 언어 처리를 word2vec로 해 보았습니다.), 우리는 이곳에서 더 많은 자료를 발견하고 링크를 클릭하여 보았다 https://qiita.com/ushinokomoriuta/items/f1154f410e1e6d1c10e1텍스트를 자유롭게 공유하거나 복사할 수 있습니다.하지만 이 문서의 URL은 참조 URL로 남겨 두십시오.
우수한 개발자 콘텐츠 발견에 전념 (Collection and Share based on the CC Protocol.)