Twitter 데이터를 프로그래밍 필요없이 수집하는 방법

인사말



안녕하세요, 맘보입니다.
첫 투고로서 코로나 관련 tweet 분석 시리즈를 해 보았습니다.
파이썬에 지쳐서 nehan로 데이터 분석해 보았다 (코로나 관련, 그 워드는 지금?)
파이썬에 지쳐서 nehan으로 데이터 분석해 보았다
파이썬에 지쳐서 nehan으로 데이터 분석해 보았다

이번은, 그 마무리로서, 원래 Twitter의 데이터를 어떻게 모을 것인가,를 소개하고 싶습니다. 물론 분석 도구 nehan

Amazon S3를 저장용 스토리지로 사용합니다.


API 이용 신청하기



우선, Twitter API 이용 신청을 하지 않으면 안됩니다.
이것은 Google에서 검색하면 많은 방법이 나오므로, 할애합니다.
단지 신청 작업입니다만, 여러가지 쓰거나, 원래 영어이거나, 라고 약간 귀찮거나 합니다.

Twitter API를 두드리는



nehan은 외부 데이터를 캡처하는 커넥터를 많이 제공합니다.

Cdata의 드라이버 를 채용하고 있으므로, 웹 서비스의 데이터도 캡처 가능합니다.

Twitter를 선택하고 획득한 API 정보를 넣으면 SQL 쿼리에서 tweet 데이터를 검색할 수 있습니다.


획득한 tweet 데이터 축적



취득한 데이터에 한 번 더 추가하여 AmazonS3에 축적합니다.
언제 취득한 데이터인지를 알 수 있듯이, 1열 추가해 처리 시간을 넣어 둡니다.

이 때 변수 기능이 유용합니다. 실행 시간, 실행 날짜를 동적으로 정의합니다.

그리고 마지막으로 S3로 내보내면 축적은 완성. 내보낼 파일 이름에 변수를 넣어 처리 날짜를 알 수 있습니다.


매일 데이터 처리 및 축적



위의 처리를 매일 손으로 실행할 수 없기 때문에 자동 갱신 설정을 실시합니다.
tweet 데이터를 업데이트, S3에 저장하는 흐름을 매일 0시 0분에 자동 실행하도록 설정하고 있습니다.

Twitter API가 반응하지 않고 데이터를 얻을 수 없으며 때로는 실패합니다. . .


축적된 데이터를 다시 취득하고 분석



Amazon S3에 축적된 일별 데이터를 일괄적으로 검색하여 nehan으로 가져옵니다.

이렇게 캡처한 데이터를 지금까지 분석하고 있었습니다.

요약



외부 데이터를 수집해 자사 데이터와 합쳐서 보는 일이 하고 싶어지는 한편, 그 수집은 매우 번거롭거나 합니다.
nehan을 사용하면 수집은 물론 분석에 직접 연결할 수 있습니다.
물론 프로그래밍이 필요하지 않습니다.
데이터 수집 및 파이썬 작성에 지친 분석가 여러분, nehan에서 편안한 분석 생활을 보내 보는 것은 어떻습니까?

※분석 툴 nehan의 소개는 여기

좋은 웹페이지 즐겨찾기