파이썬 WordCloud에서 13연패한 역사에 대해 어떤 트윗이 되었는지 가시화해 보았다

소개



2018년 7월 장소, 서쪽 전두 다섯 장째의 가풍이 첫날부터 13연패했습니다.

지난번 , 트위터 API를 사용하여 장소에 게시된 마쿠나이 역사명이 포함된 트윗을 취득했을 때, 가풍은 휴장 역사를 제외하고 다섯 번째로 트윗 수가 많았다는 것을 알았습니다.

어떤 내용의 트윗이 많았습니까?

MeCab에서 형태소 해석하고 WordCloud에서 시각화해 보았습니다.

MeCab에서 형태소 분석



스터버의 Twitter 데이터를 파이썬으로 대량으로 취득하고 데이터 분석을 시도한다. 를 참고로 , MeCab 를 인스톨 해 사용해 보았습니다.
def words_with_keyword(data):
    m = MeCab.Tagger("-d /usr/local/lib/mecab/dic/mecab-ipadic-neologd/")
    word_list = []
    for i in range(data.shape[0]):
        if type(data.text[i]) == str:
            texts = m.parse(data.loc[i, 'text'])
            texts = texts.split('\n')
            for text in texts:
                text = re.split('[\t,]', text)
                if text[0] == 'EOS' or text[0] == '':
                    pass
                elif text[1] in ['名詞', '形容詞', '動詞', '副詞']:
                    word_list.append(text[0])
    return word_list

역사명은 유저 사전에 등록하지 않으면, 단어로서 인식해 주지 않기 때문에, MeCab에 사용자 사전 추가 를 참고로,

/usr/local/lib/mecab/dic/userdic/mecab_user_dic.csv
鶴竜,,,1,名詞,固有名詞,人名,名,*,*,*,*,*
白鵬,,,1,名詞,固有名詞,人名,名,*,*,*,*,*
稀勢の里,,,1,名詞,固有名詞,人名,名,*,*,*,*,*

이러한 파일을 만들고,
$ /usr/local/Cellar/mecab/0.996/libexec/mecab/mecab-dict-index \
-d /usr/local/lib/mecab/dic/ipadic \
-u /usr/local/lib/mecab/dic/userdic/mecab_user_dic.dic \
-f utf-8 -t utf-8 /usr/local/lib/mecab/dic/userdic/mecab_user_dic.csv

이러한 명령으로 등록했습니다.

WordCloud로 시각화



Word Cloud에서 문장의 단어 출현 빈도를 시각화합니다. [Python] 을 참고로 위에서 만든 word_list를 WordCloud에 먹이게 합니다.
폰트는 font_path로 지정하고, 그다지 의미가 없는 단어는 stopwords로 지정하여 제거합니다.
def make_word_cloud(rikishi, word_list):
    word_list = ' '.join(word_list)

    font_path = "~/Library/Fonts/RictyDiminished-Regular.ttf"
    stopwords = [
        'in', 'bot', 'https', 'co', 'ない', '無い', '投稿', 'ツイート', '今日', '明日',
        'さん', 'こと', 'よう', 'それ', 'どこ', 'これ', 'みたい', '名前', '自分', 'ちゃん',
        '登録', 'くん', 'あと', 'そこ', 'ため', 'うち', 'ここ', 'ところ', 'なん', '感じ',
        'もの', 'とき', 'やつ', 'もん', 'しよう', 'わけ', 'たち', 'とこ', 'つもり', 'こちら',
        'しんみ', 'した', 'せい', 'さま', 'さっき', 'こっち', 'かな', 'まま', '最近', '時間',
        '場所', '本日', '付近', 'よろしくお願いします', '昨日', '今週', '来週', '先週', 'みんな',
        '相撲', '名古屋場所', 'sumo', '大相撲', '力士', '中継', '相撲部', '相撲取り', '情報',
        '大相撲名古屋場所','相手', '土俵', '???', 'あれ', '近く', '思っ', 'しまっ', 'どう',
        'てる', 'ある', 'なる', 'なっ', 'やっ', 'あっ', 'ちゃっ', 'くれ', 'する', 'そう',
        'ニュース', 'www', 'スーモ', '…。', 'ww', 'られ', '思い', 'いる', 'ーーー', '思う'
    ]

    wordcloud = WordCloud(background_color="white", font_path=font_path, width=900, height=500,
                          max_words=70, stopwords=set(stopwords)).generate(word_list)

    plt.figure(figsize=(10,8))
    plt.imshow(wordcloud)
    plt.axis("off")
    plt.show()

2018년 7월 장소 15일간의 가풍이라는 단어를 포함한 트윗을 시각화한 것이 이것입니다.

'은퇴', '요와', '손잡이' 등의 단어는 없고, '응원', '최고', '좋아', '좋아', '음색', '나쁜', '걱정' 등의 단어가 눈에 띈다.

요약



가풍은 많은 사람들에게 사랑 받고 있습니다.

코드는 모두 github에 있습니다. 프로그래밍, 스모, 모두 초보자이므로 교수해 주시면 기쁩니다.

좋은 웹페이지 즐겨찾기