GCS의 TSV 파일에서 BQ 테이블 만들기

1661 단어 gcpBigQuery

개요



Cloud Console과 Cloud Shell을 활용하여 GCS의 TSV 파일을 소스로 BigQuery 테이블을 만듭니다.

Cloud Console은 CSV 파일이면 GCS 가져오기로 테이블을 만들 수 있지만 TSV 파일은 지원하지 않으므로 Cloud Shell에서 전송 처리가 필요합니다.

BQ 테이블 만들기



Cloud Console에서 스키마를 정의하고 빈 테이블을 만듭니다.

스키마 정의



가져올 데이터의 스키마를 정의합니다. 여기서는 텍스트로 정의합니다.
uid:STRING,gender:STRING,age:INTEGER

이 텍스트를 테이블 작성 화면의 스키마 항목에서 [텍스트로 편집]의 토글을 ON으로 하여 붙여넣습니다.


GCS에서 전송



GCS의 TSV 파일을 소스로 사용하여 위의 빈 테이블로 데이터를 전송합니다.
bq load --source_format=CSV --encoding=UTF-8 --field_delimiter="\t" datasetName.tableName gs://bukectName/fileName.tsv

전송에 오류가 발생하면



스키마의 정의가 잘못되어 있는 경우 등 에러가 발생했을 경우에는, 스키마와 실제의 데이터를 비교하게 됩니다.
단지 파일 용량이 큰 경우에는 로컬에서 확인하는 것은 불편하기 때문에, 예를 들어 Cloud Dataprep에서 미리보기하면서 확인하면 좋다고 생각합니다.

참고 URL


  • Cloud Console을 사용한 빠른 시작 | BigQuery | Google Cloud
  • BigQuery에 탭으로 구분 된 TSV 파일 [텍스트]을 모두 로드하는 방법 - case-k 비망록
  • 좋은 웹페이지 즐겨찾기