자연 언어 처리로 트윗 분석 @ 번리
소개
BanG Dream!(번들리!)이라는 프로젝트가 있습니다.
만화, 애니메이션, 영화, 게임, 라이브와 다양한 전개가 되어 2019년 2월 28일(목)에서 4주년을 맞이했습니다.
그 일환으로, 당일은 Twitter의 공식 어카운트로부터 다양한 주제(앙케이트)가 되어 있었습니다.
이번, 이하의 주제에 대한 트윗을 느슨하게 분석해 보았습니다(분석이라고 말할 수 없을지도 모릅니다만).
㊗번들리! 프로젝트 4주년 🎊 2월 28일은 #반도리 💫☛ 트윗 제목 좋아하는 번들! 곡을 많이 들려주세요 🎵 해시태그 '#반도리 '에서 트윗💫 htps // t. 코/hrjゎzBゔぇ #반도리 피 c. 라고 r. 코 m / M 7 7 hn xq q BanG Dream! 공식 (@bang_dream_info) 2019년 2월 28일
대상 트윗
대상 트윗은 출제부터 다음 주제가 출제되기까지의 트윗 4297건입니다.
했던 일
자세히 다음 흐름
1. 대상 트윗 수집
2. 사용자 프로필을 기반으로 클러스터링
3. 각 클러스터에 대해 프로필, 트윗을 시각화
1. 대상 트윗 수집
- TwitterAPI를 사용하여 수집
2. 사용자 프로필을 기반으로 클러스터링
- 프로필 문장을 Sentencepiece로 토큰화
- BERT 사전 학습된 모델 벡터화
- K-means에서 클러스터링 (이번에는 n = 5)
3. 각 클러스터에 대해 프로필, 트윗을 시각화
- 프로필, 트윗을 Mecab에서 형태소 분석
- wordcloud로 시각화
결과
어떻게 느끼는지는 그 사람 나름일지도.
트윗 전부와 특징적인 클러스터 3개.
어떤 곡이 인기가 높은지 대략 알 수 있을까 생각합니다.
트윗 전부
한 글자만을 제외해 버리고 있으므로, 그것을 포함해 보면 「Y.O.L.O!!!!!!」나 「R」도 인기가 있었습니다.
클러스터 1. 당신들, Roselia에 모든 것을 노름하는 각오는 있는가?
클러스터 2. 성우 팬
- 프로필
- 트윗
이치가야 아리사키 역의 이토 아야사 씨의 팬이 많을 만큼 캐릭터 송 「아, 좋아하는 건 아니잖아!」가 분명 많다고 합니다.
마찬가지로 마에시마 아미 씨의 팬이 많기 때문에 "이제 일제히 루미너스"도 많을 것 같다.
클러스터 3. 캐릭터 팬
감상
실제는 제대로 집계라든지 하고 싶었지만, 표기 흔들림이나 추출 후의 분할 등이 힘들고 일단 포기했습니다.
한 일의 세세한 곳은 여유가 있으면 추후 추가합니다.
참고
Reference
이 문제에 관하여(자연 언어 처리로 트윗 분석 @ 번리), 우리는 이곳에서 더 많은 자료를 발견하고 링크를 클릭하여 보았다
https://qiita.com/tame3_4dream/items/04940302aa221790da42
텍스트를 자유롭게 공유하거나 복사할 수 있습니다.하지만 이 문서의 URL은 참조 URL로 남겨 두십시오.
우수한 개발자 콘텐츠 발견에 전념
(Collection and Share based on the CC Protocol.)
Reference
이 문제에 관하여(자연 언어 처리로 트윗 분석 @ 번리), 우리는 이곳에서 더 많은 자료를 발견하고 링크를 클릭하여 보았다 https://qiita.com/tame3_4dream/items/04940302aa221790da42텍스트를 자유롭게 공유하거나 복사할 수 있습니다.하지만 이 문서의 URL은 참조 URL로 남겨 두십시오.
우수한 개발자 콘텐츠 발견에 전념 (Collection and Share based on the CC Protocol.)