파이썬에 지쳤기 때문에 nehan로 데이터 분석해 보았다 (코로나 관련, 그 워드는 지금?)

인사말

안녕하세요, 맘보입니다.
요즘 고조되고 있는 Python에 의한 데이터 분석입니다만, 잘 다루는 것은 어렵습니다.
그만 파이썬과 격투하는 것이 목적이 되어 본래 달성하고 싶은 비즈니스 개선은 이즈코에. . .
그런 고민을 해결하기 위한 GUI 툴 「nehan」을 사용해, 데이터를 분석하는 예를 소개하고 싶습니다.

Twitter 데이터에서 특정 단어의 출현 수를 되돌아 보자.

코로나바이러스가 사회 문제가 되고 나서 반년 이상이 경과했습니다.
여기 약 2개월의 tweet 데이터로부터, 그 단어의 출현수를 쫓아봅니다.

데이터

nehan은 Twitter의 데이터를 직접 가져올 수 있었고 이번에는 그 기능을 사용했습니다.
소개는 또 후일.
2020/7/27부터 매일 「코로나」를 tweet 본문에 포함한 3,000tweet를 축적해, 약 2개월분의 데이터를 준비.
데이터에 대한 자세한 내용은 여기

전처리

1. 사용할 Text,Created_At만, 열 선택

port_2 = port_1[['Created_At', 'Text']]

2.Created_At를 날짜 형식으로 변경

※일부의 Created_At가 이상한 데이터가 되어 있어 에러를 토하기 때문에, 무시
※시 : 분 : 초까지 들어 있기 때문에 연 - 월 - 일만 취득

port_3 = port_2.copy()
port_3['Created_At'] = pd.to_datetime(
    port_3['Created_At'], errors='coerce', foramt=None)
port_3['Created_At'] = port_3['Created_At'].map(lambda x: x.date())

3. 날짜 형식으로 변경할 수 없는 Created_At이 누락된 값이므로 행별 삭제

port_4 = port_3.copy()
port_4 = port_4.dropna(subset=None, how='any')

일별 단어 수를 집계

4. 특정 단어를 포함한 tweet 필터

port_5 = port_4[(port_4['Text'].str.contains('クラスター', na=False, regex=False))]

5.일마다 집계

port_9 = port_5.copy()
port_9 = port_9.groupby(['Created_At']).agg(
    {'Created_At': ['size']}).reset_index()
port_9.columns = ['Created_At', '行数カウント']

시각화하고 고찰

클러스터

폭발적 감염의 상징으로 '클러스터'라는 단어는 널리 인지되었다고 할 수 있습니다.
8/9에 날아가는 것은 아마 시부야에서 행해진 클러스터 페스티벌 가 요인일 것입니다.

아베노 마스크

이제 그리운 느낌이 된 이 단어도 보았습니다.

자숙

새로운 생활양식이 정착되고 있지만, 자숙 분위기가 완전히 끝난 것은 아닐 것 같습니다.
점차 감소하는 것처럼 보입니다.

요약

엄밀한 결과를 얻기 위해서는, 사실은 더 전처리를 해야 합니다만, 묵직한 관찰, 및 nehan의 소개를 겸해 심플하게 데이터를 처리해 보았습니다.
또한 위의 소스 코드는 nehan의 파이썬 내보내기 기능에서 출력한 코드를 복사했습니다.

※분석 툴 nehan의 소개는 여기

Reference

이 문제에 관하여(파이썬에 지쳤기 때문에 nehan로 데이터 분석해 보았다 (코로나 관련, 그 워드는 지금?)), 우리는 이곳에서 더 많은 자료를 발견하고 링크를 클릭하여 보았다 https://qiita.com/nehan_io/items/15836ae1a614177a0cae

텍스트를 자유롭게 공유하거나 복사할 수 있습니다.하지만 이 문서의 URL은 참조 URL로 남겨 두십시오.

우수한 개발자 콘텐츠 발견에 전념 (Collection and Share based on the CC Protocol.)

좋은 웹페이지 즐겨찾기

개발자 우수 사이트 수집

개발자가 알아야 할 필수 사이트 100선 추천 우리는 당신을 위해 100개의 자주 사용하는 개발자 학습 사이트를 정리했습니다