GoogleCloudStorage에서 TreasureData로 데이터 가져오기

개요



회사에서 TreasureData를 데이터 레이크로 사용하고 있으므로 GoogleCloudStorage (이후 GCS)에서 데이터 가져 오기를 시도합니다.
전회( BQ에서 가져오기 )의 계속이 됩니다.

문서 을 참고로 준비된 데이터 커넥터를 이용합니다.

준비



TreasureData의 커넥터 설정을 준비하기 위해 필요한 것은 다음과 같습니다.
(이쪽도 전회와 같습니다.)
  • BigQuery의 JSON keyfile
  • BigQuery 프로젝트 ID

  • GCS로 가져올 대상 파일 준비



    테스트용으로 출력한 CSV 파일을 둡니다.



    서비스 계정 키 만들기



    지난번 와 같으므로 생략합니다.

    TreasureData에서 커넥터 설정



    카탈로그에서 GCS를 선택합니다.




    우선은 JSON keyfile의 입력이 요구되네요.
    입력하고 Continue를 누르면 자격 증명이 만들어집니다.



    그런 다음 "New Source"에서 커넥터를 만듭니다.
    버킷과 접두사를 넣고 다음



    로드한 경우 미리보기에서 확인할 수 있습니다.


    이후는, 다른 커넥터와 같은 항목이군요.
    우선은 임포트처의 정보 설정입니다.
    이번에도 테스트용으로 신규로 만듭니다.



    계속해서 스케줄 설정입니다만, 이번은 설정 없이 갑니다.


    마지막으로 커넥터의 이름을 붙여 실행!
    실행 로그를 보고 완료를 기다립니다.


    파일 사이즈가 나름대로 있기 때문에 다소 시간(450MB로 4분 정도) 걸렸습니다만, 문제 없게 받아들이고 있는 것 같습니다.



    정리



    항례의 정리를 해 둡니다.

    TreasureData 측
  • 만든 테이블
  • BQ 용 커넥터
  • BQ에 대한 자격 증명

  • GCS측
  • GCS에 업로드 된 파일
  • 테스트용 서비스 계정
  • 좋은 웹페이지 즐겨찾기