Amazon Athena를 신속하게 시도했습니다.

4627 단어 AthenaS3bigdataAWS

Amazon Athena란 무엇입니까?





re:Invent에서 오늘 발표된 Amazon Athena.
S3에 배치된 데이터를 SQL과 같은 명령으로 검색할 수 있다는 것.
그런데 Amazon판 BigQuery라고 하는 감촉으로, 꽤 흥미있었으므로 조속히 시험해 보았습니다.

요금에 대해



가장 소중한 사람입니다.

Price Per Query
$5 per TB of data scanned.

그래서 1TB의 데이터 스캔당 5달러가 걸린 것 같습니다.

죄송합니다. 수상한 설명이 있습니다.

You are charged standard S3 rates for storage, requests, and data transfer. By default, query results are stored in an S3 bucket of your choice and are also billed at standard Amazon S3 rates.

라는 것이므로, 표준의 S3의 이용 요금도 걸리는 것 같습니다.
Athena는 GET 요청을 뒤에서 발행하거나 데이터를 전송하지만 표준 S3 속도로 계산됩니다. 그리고.

지역 정보



지금은 N.Virginia에만 배포되는 것 같고 Oregon 기타. 그리고 전개하는 것 같습니다.

데이터 세트 배치 정보



N.Virginia에만 배포됩니다. 라는 것이지만
데이터 세트의 리전은 어디에 있어도 좋은 것 같습니다.
그러나 쿼리 실행 시간이 증가하고 지역이 다르기 때문에 데이터 전송에 요금이 부과됩니다. (동일한 지역의 경우 요금이 부과되지 않습니다)

Try It!



조속히 사용해 봅시다.

데이터 세트 준비



일본 우편 사이트에서 제공되는 우편 번호 데이터베이스를 사용하기로 결정했습니다.
h tp // w w. 포스트. 자판포 st. jp / jp close / dl / Kogaki-ji p. HTML

여기에서 각 도도부현의 CSV 파일을 가져옵니다.
전국판도 있습니다만, Athena의 사용감을 시험해도 복수의 파일을 스캔시키고 싶기 때문에, 이번은 흩어져서 S3에 업로드합니다.



※ DL할 수 있는 파일은 zip입니다만, Athena 는 gzip 밖에 먹을 수 없기 때문에 변환하고 있습니다



먼저 테이블을 정의해야 하는 것 같습니다.
테이블 이름이라든지 S3의 경로라든지 들을 수 있으므로 방금 업로드한 내용을 입력합니다.



네가 지정한 장소에 있는 파일은 뭐야? 라고 듣기 때문에, CSV 야. 라고 씁니다.




각 열에 이름과 유형을 지정하십시오. 라고 말하기 때문에 적당하게 설정합니다.



파티션을 설정하라고 합니다.
분명히 파티션이라는 것은 데이터 세트 아래에 YYYY-MM-DD/같은 날짜로 파고 데이터를 넣어두는 것으로
스캔 시에 여분의 데이터를 검색시키지 않는 구조인 것 같습니다.
스캔 용량 과금이므로 BigQuery와 같은 노하우가 살아 오는군요.



그래서, 완료! 우우. 글자 깨진 우우.
CSV 파일은 Shift JIS인 것이 나쁜 것 같습니다. UTF-8로 다시 업로드하세요.



아니. 이제 데이터 세트를 준비했습니다.

아 ... 칼럼이 어긋나있다 (약속

덤: 컬럼 정의 변경



할 수 없기 때문에 일단 테이블을 드롭합시다.



… 미안해! 첫날은 그런 것 같아!

쿼리 발행





3초 정도로 돌아왔습니다. BigQuery와 비슷한 느낌일까. 더 큰 데이터로 시도하지 않으면 모르겠지만.
CSV가 "로 이스케이프 되어도, Athena는 좋은 느낌으로 해주지 않는 것 같기 때문에, 주의가 필요할 것 같다.

좋은 웹페이지 즐겨찾기