특허문장판 분산표현:word2vec의 학습제 모델

2450 단어 word2vec특허

분산 표현 공개



분산 표현 N번 달이지만 특허판의 word2vec의 학습 완료 모델을 공개합니다.
통상의 word2vec의 모델보다 특허의 분산 표현 생성에 대해서는 유효(할 것)!

특허판 word2vec 학습 모델(.model) 91.4MB주의
특허판 word2vec 학습 모델(.model.wv.vectors.npy) 1500MB주의
특허판 word2vec 학습 모델(.model.trainables.syn1neg.npy) 1500MB주의
  • 2013~2015년에 일본국 특허청에서 발행된 전체 공개 공보(150만 건 정도)의 전문을 이용하여 학습
  • 차원 수는 300차원

  • 입니다.
    사용법은 다른 공개 모델과 대략 동일 ↓
    위의 세 파일을 같은 폴더에 넣고,
    /path/to/model/patent_w2v_d300_20191125.model을 적절하게 파일 위치로 바꾸고,
    사용하십시오.
    from gensim.models.word2vec import Word2Vec
    model_path = '/path/to/model/patent_w2v_d300_20191125.model'
    model = Word2Vec.load(model_path)
    

    읽을 수 있으면 분산 표현을 만들고,
    word=""
    results = model.wv.most_similar(positive=[word])
    for r in results:
        print(r)
    

    등으로 유사어를 추출하게 된다.

    추가: 공동체에서 시도할 수 있습니다.



    스마트 폰에서 실행할 수 있으므로 좋아합니다.



    덧붙여서 특허문장에서 king+woman-man을 실행하면 「school」이었습니다. 도유?
    positive = "king,woman" #@param {type:"string"}
    negative = "man" #@param {type:"string"}
    model.most_similar(positive=positive.split(","), negative=negative.split(","), topn=5)
    [('school', 0.5598236918449402),
     ('fields', 0.559217095375061),
     ('encrypted', 0.5571601986885071),
     ('employee', 0.5557701587677002),
     ('CropMark', 0.5551367998123169)]
    

    미래


  • 보통의 word2vec 모델과의 성능 비교는 별도 실시할 예정입니다.
  • 모델의 정밀도 향상 예정입니다.
  • 영어에 대해서도・・・

  • 버전 업했습니다!

    좋은 웹페이지 즐겨찾기