Athena에 법인 번호 데이터를 넣어 놀아 본다
준비하는 것
shift-jis는 깨진 것 같기 때문에 유니 코드로 떨어 뜨렸습니다.
데이터 처리
일단 유니코드로 떨어뜨린 CSV를 그대로 넣으면 내부에서 퍼스 에러가 일어났는지, 올바르게 데이터가 삽입되지 않았습니다.
그래서
seq
명령을 사용하여 오류의 원인이라고 생각되는 "
를 제거하고 S3에 업로드했습니다.데이터 가공까지의 흐름
# zipファイルの回答
$ unzip \*.zip
# 適当なディレクトリにcsvファイルを移動
$ mv *.csv /hogehoge
# seqコマンドでcsvのデータからゴミを取り除く
$ sed -e "s/\"//g" ./*.csv > fugafuga/all.csv
# gz圧縮をする。
$ tar -zcvf data.tar.gz fugafuga/
이제 S3에 업로드하는 데이터가 완성되었습니다.
Athena로 읽어 봅니다.
방금 완성된 gz 파일을 업로드할 곳에 s3의 정보를 쓴다.
물론 CSV이므로 CSV를 선택.
열의 정의입니다.
그냥 다음 스키마를
Bulk add columns
에 추가했습니다.너무 적당한 부분이 있으므로 조정하십시오.
sequencenumber int,
corporatenumber string,
process string,
correct tinyint,
updatedate date,
changedate date,
name string,
nameimageid int,
kind string,
prefecturename string,
cityname string,
streetnumber string,
addressimageid int,
prefecturecode string,
citycode string,
postcode string,
addressoutside string,
addressoutsideimageid int,
closedate date,
closecause string,
successorcorporatenumber string,
changecause string,
assignmentdate string,
latest date,
enname string,
enprefecturename string,
encityname string,
enaddressoutside string
이것으로 거의 거의 완성입니다.
움직여 보자
도쿄도내에 있는, 주식회사~의 기업을 10건 취합시다.
SELECT
*
FROM
corporatenumbers
WHERE
prefecturename = '東京都'
AND name like '株式会社%'
LIMIT 10;
쉽게 잡혔다.
Reference
이 문제에 관하여(Athena에 법인 번호 데이터를 넣어 놀아 본다), 우리는 이곳에서 더 많은 자료를 발견하고 링크를 클릭하여 보았다 https://qiita.com/RyujiKawazoe/items/41ed8259ca7152cf8de6텍스트를 자유롭게 공유하거나 복사할 수 있습니다.하지만 이 문서의 URL은 참조 URL로 남겨 두십시오.
우수한 개발자 콘텐츠 발견에 전념 (Collection and Share based on the CC Protocol.)