파이썬에 지쳤기 때문에 nehan로 데이터 분석해 보았다 (코로나 관련, 그 워드는 지금?)

인사말



안녕하세요, 맘보입니다.
요즘 고조되고 있는 Python에 의한 데이터 분석입니다만, 잘 다루는 것은 어렵습니다.
그만 파이썬과 격투하는 것이 목적이 되어 본래 달성하고 싶은 비즈니스 개선은 이즈코에. . .
그런 고민을 해결하기 위한 GUI 툴 「nehan」을 사용해, 데이터를 분석하는 예를 소개하고 싶습니다.

Twitter 데이터에서 특정 단어의 출현 수를 되돌아 보자.



코로나바이러스가 사회 문제가 되고 나서 반년 이상이 경과했습니다.
여기 약 2개월의 tweet 데이터로부터, 그 단어의 출현수를 쫓아봅니다.

데이터



nehan은 Twitter의 데이터를 직접 가져올 수 있었고 이번에는 그 기능을 사용했습니다.
소개는 또 후일.
2020/7/27부터 매일 「코로나」를 tweet 본문에 포함한 3,000tweet를 축적해, 약 2개월분의 데이터를 준비.
데이터에 대한 자세한 내용은 여기


전처리



1. 사용할 Text,Created_At만, 열 선택
port_2 = port_1[['Created_At', 'Text']]



2.Created_At를 날짜 형식으로 변경

※일부의 Created_At가 이상한 데이터가 되어 있어 에러를 토하기 때문에, 무시
※시 : 분 : 초까지 들어 있기 때문에 연 - 월 - 일만 취득
port_3 = port_2.copy()
port_3['Created_At'] = pd.to_datetime(
    port_3['Created_At'], errors='coerce', foramt=None)
port_3['Created_At'] = port_3['Created_At'].map(lambda x: x.date())



3. 날짜 형식으로 변경할 수 없는 Created_At이 누락된 값이므로 행별 삭제
port_4 = port_3.copy()
port_4 = port_4.dropna(subset=None, how='any')



일별 단어 수를 집계



4. 특정 단어를 포함한 tweet 필터
port_5 = port_4[(port_4['Text'].str.contains('クラスター', na=False, regex=False))]



5.일마다 집계
port_9 = port_5.copy()
port_9 = port_9.groupby(['Created_At']).agg(
    {'Created_At': ['size']}).reset_index()
port_9.columns = ['Created_At', '行数カウント']



시각화하고 고찰



클러스터




폭발적 감염의 상징으로 '클러스터'라는 단어는 널리 인지되었다고 할 수 있습니다.
8/9에 날아가는 것은 아마 시부야에서 행해진 클러스터 페스티벌 가 요인일 것입니다.

아베노 마스크




이제 그리운 느낌이 된 이 단어도 보았습니다.

자숙




새로운 생활양식이 정착되고 있지만, 자숙 분위기가 완전히 끝난 것은 아닐 것 같습니다.
점차 감소하는 것처럼 보입니다.

요약



엄밀한 결과를 얻기 위해서는, 사실은 더 전처리를 해야 합니다만, 묵직한 관찰, 및 nehan의 소개를 겸해 심플하게 데이터를 처리해 보았습니다.
또한 위의 소스 코드는 nehan의 파이썬 내보내기 기능에서 출력한 코드를 복사했습니다.

※분석 툴 nehan의 소개는 여기

좋은 웹페이지 즐겨찾기