Athena에 법인 번호 데이터를 넣어 놀아 본다

2697 단어 AthenaAWS

준비하는 것


  • 법인 번호 데이터
  • h tp // w w. 호진-반고우. 응. . jp / 드w 응아 d / 젠켄 /


  • shift-jis는 깨진 것 같기 때문에 유니 코드로 떨어 뜨렸습니다.

    데이터 처리



    일단 유니코드로 떨어뜨린 CSV를 그대로 넣으면 내부에서 퍼스 에러가 일어났는지, 올바르게 데이터가 삽입되지 않았습니다.

    그래서 seq 명령을 사용하여 오류의 원인이라고 생각되는 "를 제거하고 S3에 업로드했습니다.

    데이터 가공까지의 흐름
    # zipファイルの回答
    $ unzip \*.zip
    # 適当なディレクトリにcsvファイルを移動
    $ mv *.csv /hogehoge
    # seqコマンドでcsvのデータからゴミを取り除く
    $ sed -e "s/\"//g" ./*.csv > fugafuga/all.csv
    # gz圧縮をする。
    $ tar -zcvf data.tar.gz fugafuga/
    

    이제 S3에 업로드하는 데이터가 완성되었습니다.

    Athena로 읽어 봅니다.





    방금 완성된 gz 파일을 업로드할 곳에 s3의 정보를 쓴다.



    물론 CSV이므로 CSV를 선택.



    열의 정의입니다.
    그냥 다음 스키마를 Bulk add columns에 추가했습니다.
    너무 적당한 부분이 있으므로 조정하십시오.
    sequencenumber int, 
    corporatenumber string, 
    process string, 
    correct tinyint, 
    updatedate date, 
    changedate date, 
    name string, 
    nameimageid int, 
    kind string, 
    prefecturename string, 
    cityname string, 
    streetnumber string, 
    addressimageid int, 
    prefecturecode string, 
    citycode string, 
    postcode string, 
    addressoutside string, 
    addressoutsideimageid int, 
    closedate date, 
    closecause string, 
    successorcorporatenumber string, 
    changecause string, 
    assignmentdate string, 
    latest date, 
    enname string, 
    enprefecturename string, 
    encityname string, 
    enaddressoutside string
    

    이것으로 거의 거의 완성입니다.

    움직여 보자



    도쿄도내에 있는, 주식회사~의 기업을 10건 취합시다.
    SELECT
        *
    FROM
        corporatenumbers
    WHERE 
        prefecturename = '東京都'
         AND name like '株式会社%'
    LIMIT 10;
    



    쉽게 잡혔다.

    좋은 웹페이지 즐겨찾기