S3에 저장된 많은 양의 데이터를 Athena로 만져 보았습니다.
했던 일
이 기사 로 만든 전력 예측 시스템을 잠시 만지지 않았기 때문에 얼마나 학습 데이터가 쌓였는지... 그래서 Athena를 만져 보았습니다.
파일 구성
현재 다음과 같은 구성으로 학습 데이터가 저장됩니다.
BUCKET_NAME
└ electric-predict
└ train_data
└ train_data.csv
테이블 만들기
콘솔의 디자인이 바뀌었을 가능성이 있으므로 참고까지
(왠지 일본어 콘솔이 처음이 아니고 일단 영어 설정으로 하고 일본어 설정으로 되돌리면 일본어로 표시되었습니다...)
Athena 대시보드를 열고 왼쪽에 있는
テーブルの作成
를 선택합니다.위 이미지와 같은 옵션이 나옵니다. 이번에는 S3에 대한 데이터를 사용하기 때문에
from S3 bucket data
필요한 사항을 기입합니다.
이번에는 csv를 사용하고 있으므로 csv를 확인합니다.
이번에는 csv 헤더에있는
MONTH
를 열 이름으로 등록합니다.파티션을 추가할 필요가 없으므로 이제 테이블을 만들 수 있습니다.
이런 식으로 쿼리를 만들 수 있습니다.
이 쿼리를 실행하면 테이블이 만들어집니다.
건수를 세어 본다
콘솔에서 Athena를 사용하고 싶다면 기본적으로 콘솔에있는 쿼리 편집기에 쿼리를 작성하고 던지는 것만으로 좋은 것 같습니다.
우선 건수를 세어 보았습니다.
select count(*) from sampledb.hoge;
위의 쿼리를 쿼리 편집기에 입력하고 실행하면 ...
불과 약 1.6초로 응답이! ! !
아무래도 16273건 데이터를 축적할 수 있었던 것 같습니다.
당황스럽게 초기 건수를 기억하지 못했지만 ...
순조롭게 축적 할 수있을 것 같습니다 ...
왠지 파일이 남아 있던 2018년 5월 1일의 학습 파일에는 14760건의 데이터가 있었으므로 무사히 시스템은 움직이고 있다. 믿고 ...
질의를 쓰는 법에 관해서는 대학 시절에 강의에서 배운 느낌이 들지만 거의 기억하지 않기 때문에 AWS 문서 을 조사해 써 보았습니다.
select count(*) from sampledb.hoge where MONTH='1';
겨우 1월의 데이터는 몇건 있는지 조사해 보았습니다.
과연...
이것도 1.3 초 정도로 출력 된 대단한 ...
쿼리 작성 방법을 공부하면 더 편리하게 사용할 수 있습니다 ...
요약
회사의 선배에게 가르쳐 주어 사용해 보았습니다만 초기 설정이 몹시 간단하고 응답 빠르고 편리하고,
dynamoDB 밖에 만진 적이 없는 페페에서 하면 쿼리를 조금 써 건수가 2초 미만으로 나온 순간 감동했습니다 www
데이터베이스 디자인이나 쿼리 작성 방법에 관심이있었습니다.
(이 후 DQL의 존재도 가르쳐 주셔서 더욱 감동한 것은 또 다른 이야기...)
Reference
이 문제에 관하여(S3에 저장된 많은 양의 데이터를 Athena로 만져 보았습니다.), 우리는 이곳에서 더 많은 자료를 발견하고 링크를 클릭하여 보았다 https://qiita.com/naoko_s/items/fc322602dbb47bb24d3c텍스트를 자유롭게 공유하거나 복사할 수 있습니다.하지만 이 문서의 URL은 참조 URL로 남겨 두십시오.
우수한 개발자 콘텐츠 발견에 전념 (Collection and Share based on the CC Protocol.)