특허문장판 분산표현:word2vec의 학습제 모델
분산 표현 공개
분산 표현 N번 달이지만 특허판의 word2vec의 학습 완료 모델을 공개합니다.
통상의 word2vec의 모델보다 특허의 분산 표현 생성에 대해서는 유효(할 것)!
특허판 word2vec 학습 모델(.model) 91.4MB주의
특허판 word2vec 학습 모델(.model.wv.vectors.npy) 1500MB주의
특허판 word2vec 학습 모델(.model.trainables.syn1neg.npy) 1500MB주의
입니다.
사용법은 다른 공개 모델과 대략 동일 ↓
위의 세 파일을 같은 폴더에 넣고,
/path/to/model/patent_w2v_d300_20191125.model을 적절하게 파일 위치로 바꾸고,
사용하십시오.
from gensim.models.word2vec import Word2Vec
model_path = '/path/to/model/patent_w2v_d300_20191125.model'
model = Word2Vec.load(model_path)
읽을 수 있으면 분산 표현을 만들고,
word=""
results = model.wv.most_similar(positive=[word])
for r in results:
print(r)
등으로 유사어를 추출하게 된다.
추가: 공동체에서 시도할 수 있습니다.
스마트 폰에서 실행할 수 있으므로 좋아합니다.
덧붙여서 특허문장에서 king+woman-man을 실행하면 「school」이었습니다. 도유?
positive = "king,woman" #@param {type:"string"}
negative = "man" #@param {type:"string"}
model.most_similar(positive=positive.split(","), negative=negative.split(","), topn=5)
[('school', 0.5598236918449402),
('fields', 0.559217095375061),
('encrypted', 0.5571601986885071),
('employee', 0.5557701587677002),
('CropMark', 0.5551367998123169)]
미래
positive = "king,woman" #@param {type:"string"}
negative = "man" #@param {type:"string"}
model.most_similar(positive=positive.split(","), negative=negative.split(","), topn=5)
[('school', 0.5598236918449402),
('fields', 0.559217095375061),
('encrypted', 0.5571601986885071),
('employee', 0.5557701587677002),
('CropMark', 0.5551367998123169)]
버전 업했습니다!
Reference
이 문제에 관하여(특허문장판 분산표현:word2vec의 학습제 모델), 우리는 이곳에서 더 많은 자료를 발견하고 링크를 클릭하여 보았다 https://qiita.com/niship2/items/3b2592fd32bf557909c9텍스트를 자유롭게 공유하거나 복사할 수 있습니다.하지만 이 문서의 URL은 참조 URL로 남겨 두십시오.
우수한 개발자 콘텐츠 발견에 전념 (Collection and Share based on the CC Protocol.)