python gensim 은 word2vec 단 어 를 사용 하여 중국어 언어 자 료 를 처리 하 는 방법

3666 단어 pythonword2vec벡터
word2vec 소개
word2vec 홈 페이지:https://code.google.com/p/word2vec/
  • word2vec 는 구 글 의 오픈 소스 도구 로 입력 한 단어의 집합 에 따라 단어 와 단어 간 의 거 리 를 계산 할 수 있 습 니 다.
  • 은 term 를 벡터 형식 으로 바 꾸 고 텍스트 내용 에 대한 처 리 를 벡터 공간 에서 의 벡터 연산 으로 간략화 하여 벡터 공간의 싱크로 율 을 계산 하여 텍스트 의미 의 싱크로 율 을 나 타 낼 수 있다.
  • word2vec 는 코사인 값 을 계산 하고 거리 범 위 는 0-1 사이 이 며 값 이 클 수록 두 단어의 연관 도가 높다 는 것 을 나타 낸다.
  • 단어의 벡터:Distributed Representation 으로 단 어 를 표시 하 는데 보통'Word Representation'또는'Word Embedding(끼 워 넣 기)'이 라 고도 부른다.
  • 즉,단어의 벡터 표현법 은 관련 되 거나 비슷 한 단 어 를 거리 적 으로 더욱 가 깝 게 한다.
    구체 적 사용(중국어 처리)
    어 료 를 수집 하 다
    본문:아마 존 중국어 책 평가 자료,12 만+문장 텍스트.
    언어 자 료 는 텍스트 형식 으로 txt 텍스트 를 저장 합 니 다.
    주의:
    이론 적 으로 어 료 가 클 수록 좋다.
    이론 적 으로 어 료 가 클 수록 좋다.
    이론 적 으로 어 료 가 클 수록 좋다.
    중요 한 일 을 세 번 말 하 다.
    너무 작은 언어 자료 가 튀 어 나 온 결 과 는 큰 의미 가 없 기 때문이다.
    분사
    중국어 단어 도구 가 아직도 많 습 니 다.제 가 자주 사용 하 는 것 은:
    -중과 원 NLPIR
    -하 공 대 LTP
    -말 더 듬 기
    메모:단어 텍스트 는 word2vec 의 입력 파일 로 사 용 됩 니 다.
    분사 텍스트 예시

    word2vec 사용
    python,gensim 모듈 을 이용 합 니 다.
    win 7 시스템 에서 일반적인 python 을 바탕 으로 gensim 모듈 이 잘 설치 되 지 않 기 때문에 anaconda 를 사용 하 는 것 을 권장 합 니 다.구체 적 인 참조:python 개발 의 anaconda[그리고 win 7 에 gensim 설치]
    
         ――
    #!/usr/bin/env python
    # -*- coding: utf-8 -*-
    
    """
      :  gensim  ,      
      :2016 5 21  20:49:07
    """
    
    from gensim.models import word2vec
    import logging
    
    #    
    logging.basicConfig(format='%(asctime)s : %(levelname)s : %(message)s', level=logging.INFO)
    sentences = word2vec.Text8Corpus(u"C:\\Users\\lenovo\\Desktop\\word2vec  \\         .txt") #     
    model = word2vec.Word2Vec(sentences, size=200) #   window=5
    
    #          /    
    y1 = model.similarity(u"  ", u" ")
    print u"【  】 【 】     :", y1
    print "--------
    " # y2 = model.most_similar(u" ", topn=20) # 20 print u" 【 】 :
    " for item in y2: print item[0], item[1] print "--------
    " # print u" - , -" y3 = model.most_similar([u' ', u' '], [u' '], topn=3) for item in y3: print item[0], item[1] print "--------
    " # y4 = model.doesnt_match(u" ".split()) print u" :", y4 print "--------
    " # , model.save(u" .model") # # model_2 = word2vec.Word2Vec.load("text8.model") # C model.save_word2vec_format(u" .model.bin", binary=True) # # model_3 = word2vec.Word2Vec.load_word2vec_format("text8.model.bin", binary=True) if __name__ == "__main__": pass
    실행 결과
    [좋아]와[좋아]의 싱크로 율 은 0.790186663972 이다.
    --------
    [책]과 가장 관련 된 단 어 는 다음 과 같다.
    서적
    책 0.633386790752
    확실히
    교재
    정품
    0.529319941998 은 말 할 필요 가 없어 요.
    좋아요.
    듣자니 0.51004421711
    도서
    버티다
    신간
    아주
    괜찮다
    정품
    용지
    아쉽다
    공구 서
    확실히 0.448629021645
    상품
    지질
    --------
    책-좋아,질-
    정교 하 다
    전체적으로 말 하면 0.496103972197.
    재질
    --------
    몹시
    이상 이 바로 본 고의 모든 내용 입 니 다.여러분 의 학습 에 도움 이 되 고 저 희 를 많이 응원 해 주 셨 으 면 좋 겠 습 니 다.

    좋은 웹페이지 즐겨찾기