Treasure Data에서 csv 파일을 가져오는 방법(Mac)

배경



Treasure Data에 csv 파일을 import할 때 상당히 어색했으므로 여기에 써 둡니다.
검색해도 일련의 흐름을 쓰고 있어 알기 쉬운 것이 없었기 때문에,,,

목적



Treasure Data로 csv 파일을 import하는 방법을 설명합니다.
이번에는 자신의 방식을 적습니다.

할 일


  • JDK 설치
  • embulk 설치 (← 이번에는 필요하지 않았습니다.)
  • TD 명령 설치
  • TD 명령 실행

  • JDK 설치


  • JDK가 들어 있는지 확인

  • 터미널을 열고 java -version 를 입력합니다.

    ↑의 경우는 설치되어 있지 않습니다.
  • JDK 설치

  • 덧붙여서, 버전 8 이상은 아직 대응하고 있지 않으므로 조심합시다.
    버전: Java SE 8
    Product: Mac OS X x64
    를 선택합시다.
    htps //w w. 오 c. 이 m/테 ch네와 ㄉ rk/쟈ゔぁ/쟈ゔぁ세/도w응아 ds/그리고 x. HTML? 그렇게 r d = 오 t jp



    클릭하면 계정 인증을 요구하므로 가지고 있지 않으면 작성합시다.
    과거 버전을 설치할 때 필요합니다.


  • 에서는 설치되어 있는지 확인합시다.



  • embulk 설치



    아래의 커맨드를 터미널에 넣으면 OK입니다.curl --create-dirs -o ~/.embulk/bin/embulk -L "http://dl.embulk.org/embulk-latest.jar"
    chmod +x ~/.embulk/bin/embulk
    echo 'export PATH="$HOME/.embulk/bin:$PATH"' >> ~/.bashrc
    source ~/.bashrc
    embulk gem install embulk-output-td
    자세한 것은 공식 문서에 있으므로 부디.
    htps : // 꼬리 rt. t 어째서였다. 코 m / hc / 엔 - s / archi c ぇ s / 360001495428

    TD 명령 설치



    ↓TD 명령을 사용하려면 여기를 설치하고 초기 설정이 필요합니다. (초기 설정은 여기에서는 할애)
    htps : // 및 ltlt. t 어째서였다. 코m/

    TD 명령 실행



    ↓TD명령의 공식 문서가 됩니다.
    htps : // / cs. t 어째서였다. 코 m / r 치 c ぇ s / tdc ぃ

    그럼 단번에 달려 명령만 써 버립니다.
    1. td table:partial_delete <DB名> <Table名> --from <UDF形式のtime> --to <UDF形式のtime> →표에 여분의 데이터가 있을 때는 time를 지정해 삭제합니다.
    2. td import:list  →지금 등록되어 있는 session 일람을 볼 수 있습니다.
    3. td import:create <session名> <DB名> <Table名> →이것으로 session을 작성합니다.
    4. td import:prepare <csvファイル> --format csv --columns <カラム名>,<カラム名>,・・・ --time-value <UDF形式のtime> -o parts/ →파일을 압축 분할하여 msgpack으로 변환한다. time 컬럼이 없는 경우는 베타타치로 지정한다.
    5. td import:upload <session名> <分割ファイルのパス> →전에 변환한 파일을 업로드한다.
    6. td import:perform <session名> →TD로 처리를 실행합니다.
    7. td import:commit <session名> →success가 되면 commit을 합니다.
    8. td import:delete <session名> →commit까지 완료되면 session을 삭제합시다.

    처음 만질 때는 td import:list



    개인적인 망설임 포인트였던 것은
    1. JDK의 버전 8까지만 대응하고 있었던 것.
     →그렇다고는 모르고 최신 버젼을 인스톨 해 움직이지 않고 아와아와 하고 있었습니다.
    2. 좋은 느낌에 정보가 정리되어 있는 블로그 등이 적은 것.
     →단지 csv파일을 import하고 싶었을 뿐이었는데, 가려운 곳에 손이 닿지 않는다. . .
    3. csv 파일에 시간 열이 없는 패턴.
     →이번은 user_id를 테이블에 import하고 싶었을 뿐이므로, 지정의 방법이 잘 모르고 고생했습니다.

    그렇다고 csv의 한정적인 이야기를 해 버렸습니다만, 어딘가의 누군가의 도움이 될 수 있으면 다행입니다.

    좋은 웹페이지 즐겨찾기