워드 클라우드로 소설을 보는 단어.

1267 단어 wordcloudPython
나는 자연 언어 처리를 공부하는 도중에WordCloud를 놀았다.
마스크를 지정하면 트렌디한 이미지를 만들 수 있고, 형태소 해석 후 시각화 도구로도 편리하다
문장은 나생문이다.
나생문의 txt 파일 자체는 청공 문고에서 왔다
from janome.tokenizer import Tokenizer
import zipfile
import os.path, urllib.request as request
from wordcloud import WordCloud
import matplotlib.pyplot as plt
%matplotlib inline


file = withopen('rashomon.txt', 'r') as f:
    bindata = f.read()
textdata = bindata.decode('shift_jis')


t=Tokenizer()
tokens=t.tokenize(textdata)
분석하다글꼴을 지정하지 않으면 코드를 어지럽힐 수 있기 때문에 flath로 다운로드한 NotoSan을 path로 지정합니다.

words = ""
for token in tokens:
    if token.part_of_speech.split(',')[0] in ['名詞', '動詞', '副詞']:
        words = words + " " + token.base_form


fpath="NotoSansCJKjp-hinted/NotoSansCJKjp-Black.otf"
wordcloud = WordCloud(background_color="white",width=800,height=500,font_path=fpath).generate(words)


plt.figure(figsize=(30,24))
plt.imshow(wordcloud)
plt.axis("off")
plt.show()


동사가 있어 크게 만들었지만 등장인물의 노파와 하인은 여전히 컸다.

좋은 웹페이지 즐겨찾기