파이썬 WordCloud에서 13연패한 역사에 대해 어떤 트윗이 되었는지 가시화해 보았다
소개
2018년 7월 장소, 서쪽 전두 다섯 장째의 가풍이 첫날부터 13연패했습니다.
지난번 , 트위터 API를 사용하여 장소에 게시된 마쿠나이 역사명이 포함된 트윗을 취득했을 때, 가풍은 휴장 역사를 제외하고 다섯 번째로 트윗 수가 많았다는 것을 알았습니다.
어떤 내용의 트윗이 많았습니까?
MeCab에서 형태소 해석하고 WordCloud에서 시각화해 보았습니다.
MeCab에서 형태소 분석
스터버의 Twitter 데이터를 파이썬으로 대량으로 취득하고 데이터 분석을 시도한다. 를 참고로 , MeCab 를 인스톨 해 사용해 보았습니다.
def words_with_keyword(data):
m = MeCab.Tagger("-d /usr/local/lib/mecab/dic/mecab-ipadic-neologd/")
word_list = []
for i in range(data.shape[0]):
if type(data.text[i]) == str:
texts = m.parse(data.loc[i, 'text'])
texts = texts.split('\n')
for text in texts:
text = re.split('[\t,]', text)
if text[0] == 'EOS' or text[0] == '':
pass
elif text[1] in ['名詞', '形容詞', '動詞', '副詞']:
word_list.append(text[0])
return word_list
역사명은 유저 사전에 등록하지 않으면, 단어로서 인식해 주지 않기 때문에, MeCab에 사용자 사전 추가 를 참고로,
/usr/local/lib/mecab/dic/userdic/mecab_user_dic.csv鶴竜,,,1,名詞,固有名詞,人名,名,*,*,*,*,*
白鵬,,,1,名詞,固有名詞,人名,名,*,*,*,*,*
稀勢の里,,,1,名詞,固有名詞,人名,名,*,*,*,*,*
이러한 파일을 만들고,
$ /usr/local/Cellar/mecab/0.996/libexec/mecab/mecab-dict-index \
-d /usr/local/lib/mecab/dic/ipadic \
-u /usr/local/lib/mecab/dic/userdic/mecab_user_dic.dic \
-f utf-8 -t utf-8 /usr/local/lib/mecab/dic/userdic/mecab_user_dic.csv
이러한 명령으로 등록했습니다.
WordCloud로 시각화
Word Cloud에서 문장의 단어 출현 빈도를 시각화합니다. [Python] 을 참고로 위에서 만든 word_list를 WordCloud에 먹이게 합니다.
폰트는 font_path로 지정하고, 그다지 의미가 없는 단어는 stopwords로 지정하여 제거합니다.
def make_word_cloud(rikishi, word_list):
word_list = ' '.join(word_list)
font_path = "~/Library/Fonts/RictyDiminished-Regular.ttf"
stopwords = [
'in', 'bot', 'https', 'co', 'ない', '無い', '投稿', 'ツイート', '今日', '明日',
'さん', 'こと', 'よう', 'それ', 'どこ', 'これ', 'みたい', '名前', '自分', 'ちゃん',
'登録', 'くん', 'あと', 'そこ', 'ため', 'うち', 'ここ', 'ところ', 'なん', '感じ',
'もの', 'とき', 'やつ', 'もん', 'しよう', 'わけ', 'たち', 'とこ', 'つもり', 'こちら',
'しんみ', 'した', 'せい', 'さま', 'さっき', 'こっち', 'かな', 'まま', '最近', '時間',
'場所', '本日', '付近', 'よろしくお願いします', '昨日', '今週', '来週', '先週', 'みんな',
'相撲', '名古屋場所', 'sumo', '大相撲', '力士', '中継', '相撲部', '相撲取り', '情報',
'大相撲名古屋場所','相手', '土俵', '???', 'あれ', '近く', '思っ', 'しまっ', 'どう',
'てる', 'ある', 'なる', 'なっ', 'やっ', 'あっ', 'ちゃっ', 'くれ', 'する', 'そう',
'ニュース', 'www', 'スーモ', '…。', 'ww', 'られ', '思い', 'いる', 'ーーー', '思う'
]
wordcloud = WordCloud(background_color="white", font_path=font_path, width=900, height=500,
max_words=70, stopwords=set(stopwords)).generate(word_list)
plt.figure(figsize=(10,8))
plt.imshow(wordcloud)
plt.axis("off")
plt.show()
2018년 7월 장소 15일간의 가풍이라는 단어를 포함한 트윗을 시각화한 것이 이것입니다.
'은퇴', '요와', '손잡이' 등의 단어는 없고, '응원', '최고', '좋아', '좋아', '음색', '나쁜', '걱정' 등의 단어가 눈에 띈다.
요약
가풍은 많은 사람들에게 사랑 받고 있습니다.
코드는 모두 github에 있습니다. 프로그래밍, 스모, 모두 초보자이므로 교수해 주시면 기쁩니다.
Reference
이 문제에 관하여(파이썬 WordCloud에서 13연패한 역사에 대해 어떤 트윗이 되었는지 가시화해 보았다), 우리는 이곳에서 더 많은 자료를 발견하고 링크를 클릭하여 보았다
https://qiita.com/a0082273/items/e39ed859b56007f649b6
텍스트를 자유롭게 공유하거나 복사할 수 있습니다.하지만 이 문서의 URL은 참조 URL로 남겨 두십시오.
우수한 개발자 콘텐츠 발견에 전념
(Collection and Share based on the CC Protocol.)
스터버의 Twitter 데이터를 파이썬으로 대량으로 취득하고 데이터 분석을 시도한다. 를 참고로 , MeCab 를 인스톨 해 사용해 보았습니다.
def words_with_keyword(data):
m = MeCab.Tagger("-d /usr/local/lib/mecab/dic/mecab-ipadic-neologd/")
word_list = []
for i in range(data.shape[0]):
if type(data.text[i]) == str:
texts = m.parse(data.loc[i, 'text'])
texts = texts.split('\n')
for text in texts:
text = re.split('[\t,]', text)
if text[0] == 'EOS' or text[0] == '':
pass
elif text[1] in ['名詞', '形容詞', '動詞', '副詞']:
word_list.append(text[0])
return word_list
역사명은 유저 사전에 등록하지 않으면, 단어로서 인식해 주지 않기 때문에, MeCab에 사용자 사전 추가 를 참고로,
/usr/local/lib/mecab/dic/userdic/mecab_user_dic.csv
鶴竜,,,1,名詞,固有名詞,人名,名,*,*,*,*,*
白鵬,,,1,名詞,固有名詞,人名,名,*,*,*,*,*
稀勢の里,,,1,名詞,固有名詞,人名,名,*,*,*,*,*
이러한 파일을 만들고,
$ /usr/local/Cellar/mecab/0.996/libexec/mecab/mecab-dict-index \
-d /usr/local/lib/mecab/dic/ipadic \
-u /usr/local/lib/mecab/dic/userdic/mecab_user_dic.dic \
-f utf-8 -t utf-8 /usr/local/lib/mecab/dic/userdic/mecab_user_dic.csv
이러한 명령으로 등록했습니다.
WordCloud로 시각화
Word Cloud에서 문장의 단어 출현 빈도를 시각화합니다. [Python] 을 참고로 위에서 만든 word_list를 WordCloud에 먹이게 합니다.
폰트는 font_path로 지정하고, 그다지 의미가 없는 단어는 stopwords로 지정하여 제거합니다.
def make_word_cloud(rikishi, word_list):
word_list = ' '.join(word_list)
font_path = "~/Library/Fonts/RictyDiminished-Regular.ttf"
stopwords = [
'in', 'bot', 'https', 'co', 'ない', '無い', '投稿', 'ツイート', '今日', '明日',
'さん', 'こと', 'よう', 'それ', 'どこ', 'これ', 'みたい', '名前', '自分', 'ちゃん',
'登録', 'くん', 'あと', 'そこ', 'ため', 'うち', 'ここ', 'ところ', 'なん', '感じ',
'もの', 'とき', 'やつ', 'もん', 'しよう', 'わけ', 'たち', 'とこ', 'つもり', 'こちら',
'しんみ', 'した', 'せい', 'さま', 'さっき', 'こっち', 'かな', 'まま', '最近', '時間',
'場所', '本日', '付近', 'よろしくお願いします', '昨日', '今週', '来週', '先週', 'みんな',
'相撲', '名古屋場所', 'sumo', '大相撲', '力士', '中継', '相撲部', '相撲取り', '情報',
'大相撲名古屋場所','相手', '土俵', '???', 'あれ', '近く', '思っ', 'しまっ', 'どう',
'てる', 'ある', 'なる', 'なっ', 'やっ', 'あっ', 'ちゃっ', 'くれ', 'する', 'そう',
'ニュース', 'www', 'スーモ', '…。', 'ww', 'られ', '思い', 'いる', 'ーーー', '思う'
]
wordcloud = WordCloud(background_color="white", font_path=font_path, width=900, height=500,
max_words=70, stopwords=set(stopwords)).generate(word_list)
plt.figure(figsize=(10,8))
plt.imshow(wordcloud)
plt.axis("off")
plt.show()
2018년 7월 장소 15일간의 가풍이라는 단어를 포함한 트윗을 시각화한 것이 이것입니다.
'은퇴', '요와', '손잡이' 등의 단어는 없고, '응원', '최고', '좋아', '좋아', '음색', '나쁜', '걱정' 등의 단어가 눈에 띈다.
요약
가풍은 많은 사람들에게 사랑 받고 있습니다.
코드는 모두 github에 있습니다. 프로그래밍, 스모, 모두 초보자이므로 교수해 주시면 기쁩니다.
Reference
이 문제에 관하여(파이썬 WordCloud에서 13연패한 역사에 대해 어떤 트윗이 되었는지 가시화해 보았다), 우리는 이곳에서 더 많은 자료를 발견하고 링크를 클릭하여 보았다
https://qiita.com/a0082273/items/e39ed859b56007f649b6
텍스트를 자유롭게 공유하거나 복사할 수 있습니다.하지만 이 문서의 URL은 참조 URL로 남겨 두십시오.
우수한 개발자 콘텐츠 발견에 전념
(Collection and Share based on the CC Protocol.)
def make_word_cloud(rikishi, word_list):
word_list = ' '.join(word_list)
font_path = "~/Library/Fonts/RictyDiminished-Regular.ttf"
stopwords = [
'in', 'bot', 'https', 'co', 'ない', '無い', '投稿', 'ツイート', '今日', '明日',
'さん', 'こと', 'よう', 'それ', 'どこ', 'これ', 'みたい', '名前', '自分', 'ちゃん',
'登録', 'くん', 'あと', 'そこ', 'ため', 'うち', 'ここ', 'ところ', 'なん', '感じ',
'もの', 'とき', 'やつ', 'もん', 'しよう', 'わけ', 'たち', 'とこ', 'つもり', 'こちら',
'しんみ', 'した', 'せい', 'さま', 'さっき', 'こっち', 'かな', 'まま', '最近', '時間',
'場所', '本日', '付近', 'よろしくお願いします', '昨日', '今週', '来週', '先週', 'みんな',
'相撲', '名古屋場所', 'sumo', '大相撲', '力士', '中継', '相撲部', '相撲取り', '情報',
'大相撲名古屋場所','相手', '土俵', '???', 'あれ', '近く', '思っ', 'しまっ', 'どう',
'てる', 'ある', 'なる', 'なっ', 'やっ', 'あっ', 'ちゃっ', 'くれ', 'する', 'そう',
'ニュース', 'www', 'スーモ', '…。', 'ww', 'られ', '思い', 'いる', 'ーーー', '思う'
]
wordcloud = WordCloud(background_color="white", font_path=font_path, width=900, height=500,
max_words=70, stopwords=set(stopwords)).generate(word_list)
plt.figure(figsize=(10,8))
plt.imshow(wordcloud)
plt.axis("off")
plt.show()
가풍은 많은 사람들에게 사랑 받고 있습니다.
코드는 모두 github에 있습니다. 프로그래밍, 스모, 모두 초보자이므로 교수해 주시면 기쁩니다.
Reference
이 문제에 관하여(파이썬 WordCloud에서 13연패한 역사에 대해 어떤 트윗이 되었는지 가시화해 보았다), 우리는 이곳에서 더 많은 자료를 발견하고 링크를 클릭하여 보았다 https://qiita.com/a0082273/items/e39ed859b56007f649b6텍스트를 자유롭게 공유하거나 복사할 수 있습니다.하지만 이 문서의 URL은 참조 URL로 남겨 두십시오.
우수한 개발자 콘텐츠 발견에 전념 (Collection and Share based on the CC Protocol.)