S3×Athena×Re:dash로 데이터 시각화해 보았다
그래서 다른 BI 도구를 찾아 보면 Re : dash가 기세가 있기 때문에 사용해 보았습니다! !
데이터 시각화(=visualization)의 필요성
원래 왜 데이터를 시각화하는가?
전직에서는 광고 제품의 퍼포먼스 향상을 위해서 일의 대부분을 데이터 분석&시책 입안에 지출해 왔습니다만, 데이터를 분석하면 할수록 운용자에게는 지견이 쌓여, 센스가 연마되어 간다. 그러나, 어쩌면 시책의 결정자나 제품의 책임자 클래스와의 공통 인식에 갭이 생겨 버린다.
즉, 올바르게 이해하기 위한 커뮤니케이션의 장애물이 올라간다.
그 원인은
1. 숫자를 읽고,
2. 숫자를 이해하고,
3. 결제자가 운용자의 주장을 이해할 필요가 있으며,
매우 비용이 많이 든다.
데이터의 시각화(=visualization)는 그 비용을 단번에 바로 가는 가능성을 크게 숨기고 있습니다.
예) 비율은 시각화하는 편이 알기 쉽다! !
Excel처럼 매트릭스 뿐이라면
video_complete
의 비율이 큰 것은 어떻게든 알 수 있을 정도.같은 데이터도 시각화함으로써 그 비율도 감각적으로 잡기 쉬워진다.
도입 절차
샘플 텍스트 파일로 날짜와 작업 항목이 있는 데이터를 준비했습니다.
우선 S3에 로그를 둡니다.
시각화할 데이터를 S3에 놓습니다.
그런 다음 Athena 설정
Step1: Name&Location
…데이터베이스/테이블/가져오기 소스 설정하기
지정한 S3의 폴더 아래의 파일이 모두 쿼리의 대상 범위가 된다(PARTITION의 설정에 유용)
S3 패스의 마지막 「/」는 필수이므로 주의(Table 작성시의 “Location of Input Data Set”)
Step2: Data format
… 준비된 데이터의 형식 지정
이번에는 tsv에서 샘플 데이터를 준비했으므로 'TSV'를 선택한다.
Step3: Columns
... 각 열의 데이터 형식을 왼쪽에서 순서대로 지정합니다.
마지막으로 Re:dash로 시각화
Redash가 Amazon Athena를 공식적으로 지원했기 때문에 시도했습니다. 대로 하는 것만!
매우 쉬웠습니다.
빠진 것 & 빠져있는 것
[해결됨] Athena에서 timestamp의 데이터 형식 지정은 문자열입니다.
로그 타임 스탬프를 Athena에서
データ型: timestamp
로 테이블을 만들면 Re:dash로 잘 비주얼을 만들 수 없다.[해결 중] Re : dash에서 로그 타임 스탬프를 날짜별로 집계하려면 어떤 쿼리를 작성해야합니까?
Re:dash로 어떤 쿼리를 쓰면 좋을지 모르고, 아래의 쿼리로 잠정 대응. 성능이 좋지 않다. . . 좋은 방법이 있다면 알려주세요. m (_ _) m
SELECT SUBSTRING(req_timestamp, 1, 10) AS req_timestamp,
action_name,
count(*) AS count
FROM sampledb.sample_log
GROUP BY SUBSTRING(req_timestamp, 1, 10), action_name;
참고로 한 사이트
Redash가 Amazon Athena를 공식적으로 지원했기 때문에 시도했습니다.
Amazon Athena + Redash = ♥️
Reference
이 문제에 관하여(S3×Athena×Re:dash로 데이터 시각화해 보았다), 우리는 이곳에서 더 많은 자료를 발견하고 링크를 클릭하여 보았다 https://qiita.com/youhei19880130/items/ea366afb5d68c797d19d텍스트를 자유롭게 공유하거나 복사할 수 있습니다.하지만 이 문서의 URL은 참조 URL로 남겨 두십시오.
우수한 개발자 콘텐츠 발견에 전념 (Collection and Share based on the CC Protocol.)