td import : auto 명령을 사용할 때 조심하고 싶은 것
3580 단어 TreasureData
이를 사용하면 데이터베이스 작업, 쿼리 실행, 결과 내보내기, 대량 가져오기 등이 가능합니다.
h tp : // 및 llt. t 어쨌든. 코m/
이 명령을 사용할 때 빠진 것을 소개합니다.
여러 CSV 파일을 대량으로 가져오는 방법
컬럼의 구성이 같은 파일이 복수로 나누어져 있어, 그것을 일괄로 받아들이고 싶을 때에 편리한 방법이 있습니다.
파일명을 지정할 때,
*.csv
라고 하는 형태로 와일드 카드 지정을 할 수 있습니다.td import:auto --format csv --column-header --encoding Windows-31J --all-string \
--time-value `date +%s`,10 --auto-create foo_db.bar_table path/to/example_*.csv
Tips: 위의 명령 예제에서 사용하는 가져올 파일에 시간이 없을 때의 조치
--time-value `date +%s`,10
그러면 10개의 파티션으로 나뉘어지도록 좋은 느낌으로 가져올 수 있습니다.자세한 설명은 다음과 같습니다.
--time-value (unixtime) 옵션을 부여함으로써 임의의 time을 부여시킬 수 있습니다. 주의점으로서, TreasureData는 time를 1시간마다 파티션을 단락지어 효율적인 데이터 처리를 실시하기 때문에, 전부의 데이터를 --time-value 0으로 하면(자) 쿼리의 효율등이 나빠집니다. 따라서 데이터의 갱신일 등에서 time의 범위를 알 수 있다면 --time-value UNIXTIME,HOURS와 같이 지정함으로써 어느 시간에서 HURS시간의 범위에서 time을 빼서 데이터를 삽입합니다. 준다.
인용 소스 htps : // 오스. 시오 s. 코 m / 비 gdata - b ぉ g / 우아 59 U p
모델 종속 문자가 포함된 CSV 파일의 인코딩 지정
td import 명령으로 encoding에 곤란했을 때에 참고가 되는 Tips입니다.
소위 Windows에서 작성된 기종 의존 문자를 포함한 csv 파일을 가져올 때, Shift_JIS에서의 지정으로는 버려 버립니다.
그러나 CP932로 지정해도 오류가 발생합니다. 그 때는
Windows-31J
또는 MS932
를 지정합시다.움직이는
움직이지 않는다
이러한 배경으로 td import 명령은 뒤에서
td-import.jar
를 호출하고 Java로 작성됩니다.그 때문에 CP932가 아니고, Windows-31J 내지 MS932를 지정할 필요가 있는 것 같습니다.
조금 이상한 일이지만, 어느 것을 지정해도 결과는 같습니다.
Java 세계에서는 IBM의 CP932와 Windows-31J를 구별하기 위해 MS932라는 용어가 사용됩니다.
(중략)
대부분의 경우에는 문제가 없을 수도 있지만, 프로그래밍에서 문자 코드에 "Windows-31J"라고 지정해야하는 곳을 "Shift_JIS"로 지정했기 때문에 문자 깨짐을 일으킬 수 있습니다. Windows-31J에 정의된 문자가 Shift_JIS에 없는 경우입니다.
인용 소스 h tp // 우나. 소라마다. 네 t/와 피 cs/13. HTML
대량 가져오기 문서
다음 URL에서 다양한 Tips를 볼 수 있습니다.
htp // // cs. t 어쨌든. 코 m / 카테고 리에 s / 부 lk-m rt
함께 읽고 싶다.
ぃ tp // m / y - 켄 / ms / e f48에서 726dcbc4d9에서 98
Reference
이 문제에 관하여(td import : auto 명령을 사용할 때 조심하고 싶은 것), 우리는 이곳에서 더 많은 자료를 발견하고 링크를 클릭하여 보았다 https://qiita.com/y-ken/items/afe6ac03dc4304f28f47텍스트를 자유롭게 공유하거나 복사할 수 있습니다.하지만 이 문서의 URL은 참조 URL로 남겨 두십시오.
우수한 개발자 콘텐츠 발견에 전념 (Collection and Share based on the CC Protocol.)