신형 코로나 바이러스 감염자 정보의 특징을 wordcloud로 시각화해 보았다
13463 단어 wordcloud파이썬Visualizationmecab
개요
참고
신형 코로나 바이러스 (COVID-19) 감염자 정보
htps : // 코 m / 료마 / ms / 20db8cd20f1086838249
config
import re
import os
### MeCab
POS_LIST = [10, 11, 31, 32, 34]
POS_LIST.extend(list(range(36,50)))
POS_LIST.extend([59, 60, 62, 67])
STOP_WORDS = ["する", "ない", "なる", "もう", "しよ", "でき", "なっ", "くっ", "やっ", "ある", "しれ", "思う", "今日", "それ", "これ", "あれ", "どれ", "どの", "NULL", "れる", "なり", "あっ", "できる", "私"]
RE_ALPHABET = re.compile("^[0-9a-zA-Z0-9 .,*<>]+$") # alphabet, number, space, comma or dot
current_dir = os.getcwd()
OUTPUT_PNG_FILE = os.path.join(current_dir, "wordcloud.png")
(약)
형태소 분석
import MeCab
from os import path
from wordcloud import WordCloud
import matplotlib
matplotlib.use('Agg')
import matplotlib.pyplot as plt
import re
def create_mecab_list(text_list):
mecab_list = []
mecab = MeCab.Tagger("-Ochasen -d /usr/local/lib/mecab/dic/mecab-ipadic-neologd") # MacOS
mecab.parse("")
# encoding = text.encode('utf-8')
for text in text_list:
node = mecab.parseToNode(text)
while node:
# [品詞,品詞細分類1,品詞細分類2,品詞細分類3,活用形,活用型,原形,読み,発音]
# 忙しく 形容詞,自立,*,*,形容詞・イ段,連用テ接続,忙しい,イソガシク,イソガシク
morpheme = node.feature.split(",")[6]
if RE_ALPHABET.match(morpheme):
node = node.next
continue
if morpheme in STOP_WORDS:
node = node.next
continue
if len(morpheme) > 1:
if node.posid in POS_LIST:
mecab_list.append(morpheme)
node = node.next
return mecab_list
wordcloud
import MeCab
from os import path
from wordcloud import WordCloud
import matplotlib
matplotlib.use('Agg')
import matplotlib.pyplot as plt
import re
def create_wordcloud(morphemes):
# fpath = "/usr/share/fonts/truetype/takao-gothic/TakaoPGothic.ttf" # Ubuntu
fpath = "/System/Library/Fonts/ヒラギノ丸ゴ ProN W4.ttc" # Mac OS X
wordcloud = WordCloud(
background_color="whitesmoke",
collocations=False,
stopwords=set(STOP_WORDS),
max_font_size=80,
relative_scaling=.5,
width=800,
height=500,
font_path=fpath
).generate(morphemes)
plt.figure()
plt.imshow(wordcloud)
plt.axis("off")
wordcloud.to_file(OUTPUT_PNG_FILE)
결과
기타 신형 코로나 관련 정보
htps : // 기주 b. 코 m / 그 rx 로 b / 코 ゃ d 3d
Reference
이 문제에 관하여(신형 코로나 바이러스 감염자 정보의 특징을 wordcloud로 시각화해 보았다), 우리는 이곳에서 더 많은 자료를 발견하고 링크를 클릭하여 보았다 https://qiita.com/berry-clione/items/9c8f9891c9037fbba72b텍스트를 자유롭게 공유하거나 복사할 수 있습니다.하지만 이 문서의 URL은 참조 URL로 남겨 두십시오.
우수한 개발자 콘텐츠 발견에 전념 (Collection and Share based on the CC Protocol.)