python gensim 은 word2vec 단 어 를 사용 하여 중국어 언어 자 료 를 처리 하 는 방법
word2vec 홈 페이지:https://code.google.com/p/word2vec/
구체 적 사용(중국어 처리)
어 료 를 수집 하 다
본문:아마 존 중국어 책 평가 자료,12 만+문장 텍스트.
언어 자 료 는 텍스트 형식 으로 txt 텍스트 를 저장 합 니 다.
주의:
이론 적 으로 어 료 가 클 수록 좋다.
이론 적 으로 어 료 가 클 수록 좋다.
이론 적 으로 어 료 가 클 수록 좋다.
중요 한 일 을 세 번 말 하 다.
너무 작은 언어 자료 가 튀 어 나 온 결 과 는 큰 의미 가 없 기 때문이다.
분사
중국어 단어 도구 가 아직도 많 습 니 다.제 가 자주 사용 하 는 것 은:
-중과 원 NLPIR
-하 공 대 LTP
-말 더 듬 기
메모:단어 텍스트 는 word2vec 의 입력 파일 로 사 용 됩 니 다.
분사 텍스트 예시
word2vec 사용
python,gensim 모듈 을 이용 합 니 다.
win 7 시스템 에서 일반적인 python 을 바탕 으로 gensim 모듈 이 잘 설치 되 지 않 기 때문에 anaconda 를 사용 하 는 것 을 권장 합 니 다.구체 적 인 참조:python 개발 의 anaconda[그리고 win 7 에 gensim 설치]
――
#!/usr/bin/env python
# -*- coding: utf-8 -*-
"""
: gensim ,
:2016 5 21 20:49:07
"""
from gensim.models import word2vec
import logging
#
logging.basicConfig(format='%(asctime)s : %(levelname)s : %(message)s', level=logging.INFO)
sentences = word2vec.Text8Corpus(u"C:\\Users\\lenovo\\Desktop\\word2vec \\ .txt") #
model = word2vec.Word2Vec(sentences, size=200) # window=5
# /
y1 = model.similarity(u" ", u" ")
print u"【 】 【 】 :", y1
print "--------
"
#
y2 = model.most_similar(u" ", topn=20) # 20
print u" 【 】 :
"
for item in y2:
print item[0], item[1]
print "--------
"
#
print u" - , -"
y3 = model.most_similar([u' ', u' '], [u' '], topn=3)
for item in y3:
print item[0], item[1]
print "--------
"
#
y4 = model.doesnt_match(u" ".split())
print u" :", y4
print "--------
"
# ,
model.save(u" .model")
#
# model_2 = word2vec.Word2Vec.load("text8.model")
# C
model.save_word2vec_format(u" .model.bin", binary=True)
#
# model_3 = word2vec.Word2Vec.load_word2vec_format("text8.model.bin", binary=True)
if __name__ == "__main__":
pass
실행 결과[좋아]와[좋아]의 싱크로 율 은 0.790186663972 이다.
--------
[책]과 가장 관련 된 단 어 는 다음 과 같다.
서적
책 0.633386790752
확실히
교재
정품
0.529319941998 은 말 할 필요 가 없어 요.
좋아요.
듣자니 0.51004421711
도서
버티다
신간
아주
괜찮다
정품
용지
아쉽다
공구 서
확실히 0.448629021645
상품
지질
--------
책-좋아,질-
정교 하 다
전체적으로 말 하면 0.496103972197.
재질
--------
몹시
이상 이 바로 본 고의 모든 내용 입 니 다.여러분 의 학습 에 도움 이 되 고 저 희 를 많이 응원 해 주 셨 으 면 좋 겠 습 니 다.
이 내용에 흥미가 있습니까?
현재 기사가 여러분의 문제를 해결하지 못하는 경우 AI 엔진은 머신러닝 분석(스마트 모델이 방금 만들어져 부정확한 경우가 있을 수 있음)을 통해 가장 유사한 기사를 추천합니다:
로마 숫자를 정수로 또는 그 반대로 변환그 중 하나는 로마 숫자를 정수로 변환하는 함수를 만드는 것이었고 두 번째는 그 반대를 수행하는 함수를 만드는 것이었습니다. 문자만 포함합니다'I', 'V', 'X', 'L', 'C', 'D', 'M' ; 문자열이 ...
텍스트를 자유롭게 공유하거나 복사할 수 있습니다.하지만 이 문서의 URL은 참조 URL로 남겨 두십시오.
CC BY-SA 2.5, CC BY-SA 3.0 및 CC BY-SA 4.0에 따라 라이센스가 부여됩니다.