자연 언어 처리로 트윗 분석 @ 번리

소개



BanG Dream!(번들리!)이라는 프로젝트가 있습니다.
만화, 애니메이션, 영화, 게임, 라이브와 다양한 전개가 되어 2019년 2월 28일(목)에서 4주년을 맞이했습니다.
그 일환으로, 당일은 Twitter의 공식 어카운트로부터 다양한 주제(앙케이트)가 되어 있었습니다.
이번, 이하의 주제에 대한 트윗을 느슨하게 분석해 보았습니다(분석이라고 말할 수 없을지도 모릅니다만).

㊗번들리! 프로젝트 4주년 🎊 2월 28일은 #반도리 💫☛ 트윗 제목 좋아하는 번들! 곡을 많이 들려주세요 🎵 해시태그 '#반도리 '에서 트윗💫 htps // t. 코/hrjゎzBゔぇ #반도리 피 c. 라고 r. 코 m / M 7 7 hn xq q BanG Dream! 공식 (@bang_dream_info) 2019년 2월 28일


대상 트윗



대상 트윗은 출제부터 다음 주제가 출제되기까지의 트윗 4297건입니다.



했던 일



자세히 다음 흐름

1. 대상 트윗 수집

2. 사용자 프로필을 기반으로 클러스터링

3. 각 클러스터에 대해 프로필, 트윗을 시각화



1. 대상 트윗 수집



  • TwitterAPI를 사용하여 수집


2. 사용자 프로필을 기반으로 클러스터링



  • 프로필 문장을 Sentencepiece로 토큰화
  • BERT 사전 학습된 모델 벡터화
  • K-means에서 클러스터링 (이번에는 n = 5)


3. 각 클러스터에 대해 프로필, 트윗을 시각화



  • 프로필, 트윗을 Mecab에서 형태소 분석
  • wordcloud로 시각화


결과



어떻게 느끼는지는 그 사람 나름일지도.

트윗 전부와 특징적인 클러스터 3개.

어떤 곡이 인기가 높은지 대략 알 수 있을까 생각합니다.



트윗 전부





한 글자만을 제외해 버리고 있으므로, 그것을 포함해 보면 「Y.O.L.O!!!!!!」나 「R」도 인기가 있었습니다.



클러스터 1. 당신들, Roselia에 모든 것을 노름하는 각오는 있는가?



  • 프로필

  • 트윗

    Roselia 팬이 많고 열심히 라이브에 가는 사람이 많다고합니다.


클러스터 2. 성우 팬



  • 프로필

  • 트윗

    이치가야 아리사키 역의 이토 아야사 씨의 팬이 많을 만큼 캐릭터 송 「아, 좋아하는 건 아니잖아!」가 분명 많다고 합니다.
    마찬가지로 마에시마 아미 씨의 팬이 많기 때문에 "이제 일제히 루미너스"도 많을 것 같다.


클러스터 3. 캐릭터 팬



  • 프로필

  • 트윗

    캐릭터나 다른 부시로드 콘텐츠(러브라이브, 스타릴라) 등도 좋아하는 팬들은 폭넓게 좋아하는 곡을 꼽은 사람이 많다고 합니다.


감상



실제는 제대로 집계라든지 하고 싶었지만, 표기 흔들림이나 추출 후의 분할 등이 힘들고 일단 포기했습니다.

한 일의 세세한 곳은 여유가 있으면 추후 추가합니다.



참고




좋은 웹페이지 즐겨찾기