이번 구성

Google 검색결과에서 사이트 URL 가져오기 및 검색결과 텍스트 가져오기(beautifulsoup)

덴드로그램 작성 ← 지금 코코

gensim의 word2vec에서 단어의 벡터 표현을 만들고 그 공간을 시험해보고 싶습니다. 을 참고로 Doc2vec의 모델로부터 벡터 부분을 꺼내 그래프화 했습니다.
가장 곤란한 것은, Doc2vec의 모델에 그 attribution은 없어, 라고 하는 에러가 빈발하는 것과, 보통으로 변경해도 화상 사이즈가 커지지 않는 것이었습니다.

라이브러리 로드

matplotlib과 scipy를 사용합니다.

import gensim
import sys
import scipy.spatial.distance
import scipy.cluster.hierarchy
import matplotlib.pyplot as plt
import numpy as np

모델 로드

마지막으로 저장된 모델을 로드합니다.

model = gensim.models.word2vec.Word2Vec.load('doc2vec.model')

덴드로그램 생성을 위한 데이터 성형

태그(라벨):model.docvecs.doctags에 들어가 있습니다.

내용 (벡터) : model.docvecs['임의의 태그 이름']으로 그려서 이것.

단어 목록 : model.wv.vocab

여기까지 알면 거의 완성입니다.
태그 목록을 만들고 그 목록을 바탕으로 모델에서 벡터를 빼내어 전달합니다.

vocnew = list(map(lambda x: x, model.docvecs.doctags))
voc = scipy.cluster.hierarchy.linkage(model.docvecs[vocnew])

출력

scipy.cluster.hierarchy.dendrogram(voc, labels=vocnew, ax=axes[0])
plt.show()

이미지 크기 변경

너무 작아서 읽을 수 없기 때문에, 화상을 크게 하고 싶네요.
창 분할하여 사이즈 지정할 수 있었으므로 아래에 코드를 써 둡니다. 다른 방법이 있으면 알려주세요.

ig, axes = plt.subplots(2, 1, figsize=(30, 15))

size*100픽셀로 이미지가 출력됩니다. 너무 크면 무겁기 때문에주의.

결론

이번에는 체계적으로 정리하고 싶었기 때문에 덴드로그램을 사용했습니다만, 이대로 k-means에 적용할 수도 있습니다.
기업을 표현하기 위한 변수로도 사용할 수 있을까 생각합니다. 그러면 기업명을 밝히지 않고 이 기업에 묶는 다른 변수를 이용하여 모델을 만들거나 할 수 있게 됩니다.
또 뭔가 재미있는 이용이 있으면 공유하고 싶습니다.

Reference

이 문제에 관하여(검색 결과 스크래핑 & doc2vec의 기업 카테고리 (3)), 우리는 이곳에서 더 많은 자료를 발견하고 링크를 클릭하여 보았다 https://qiita.com/tizuo/items/8000ea71e49248c35260

텍스트를 자유롭게 공유하거나 복사할 수 있습니다.하지만 이 문서의 URL은 참조 URL로 남겨 두십시오.

우수한 개발자 콘텐츠 발견에 전념 (Collection and Share based on the CC Protocol.)

좋은 웹페이지 즐겨찾기

개발자 우수 사이트 수집

개발자가 알아야 할 필수 사이트 100선 추천 우리는 당신을 위해 100개의 자주 사용하는 개발자 학습 사이트를 정리했습니다