BigQuery가 하고 싶은 100개의 데이터 과학 노트에 응답하기(구조화된 데이터 가공 편)

개요

  • 이번에 빅큐리로 데이터 과학 100편(구조화 데이터 가공편) 제작
  • 동일한 절차로 누구나 사용 가능
  • Docker가 제작한 JupytryLab 환경에서 작동합니다.
  • Docker에 대한 파일은 설명하지 않습니다.
  • 밑에 전선 등이 놓여 있으니 관심 있는 사람은 보세요.
    무슨 문제가 있으면 issue로 연락 주세요.
    https://github.com/yuiki-iwayama/100knocks-preprocess-BigQuery
    !
  • 제작응답이 없으니 확인The-Japan-DataScientist-Society/100knocks-preprocess
  • BigQuery에 대한 비용은 스스로 부담하십시오[1]
  • 무료로 사용할 수 있는 모래상자는 뒤에 서술
  • 전제 조건

  • GCP 계정 등록 완료[2]
  • Docker[3] 설정
  • 절차.


    개요

  • 프로젝트 만들기
  • 서비스 계정/서비스 계정 키 만들기 및 로컬 보관
  • Docker에서 BigQuery 이동
  • 1. 프로젝트 만들기


    먼저 Google Cloud Platform에서 프로젝트를 만듭니다.

  • 보기 맨 위에 있는 항목 선택기(<프로젝트 이름>▶)를 클릭하세요.

  • 항목 선택기 대화 상자를 표시하고 오른쪽 위 모서리의 새 항목을 클릭합니다.


  • 프로젝트 이름을 입력하고 제작을 클릭(여기는100knocks-test)


  • 보기 맨 위에 있는 항목 선택기(<프로젝트 이름>▶)를 클릭하고 방금 만든 항목 이동을 누르십시오

  • !
  • 샌드박스 상태에서 사용하고 싶은 사람은 5.앞으로의 절차는 필요 없어!
  • 또한 샌드박스 상태라면 "표와 구역은 60일의 유효기간이 있다"[4]

  • 자원 UI에서 BigQuery 클릭


  • 오른쪽 상단의 승급을 클릭


  • 계정을 선택하고 계정 설정을 클릭합니다(개인은 계정만 가능)

  • 2. 서비스 계정/서비스 계정 키를 만들고 로컬에 보관


    다음에 서비스 계정과 서비스 계정 키를 만들고 로컬에 보관합니다.

  • 내비게이션 메뉴를 클릭하고 IAM과 관리를 선택하고 서비스 계정을 클릭


  • + 클릭하여 서비스 계정 만들기


  • 소문자로 시작하는 6~30의 영문 숫자로 서비스 계정 ID를 입력하여 창설하고 실행을 클릭


  • 역할 선택을 클릭하고 BigQuery->BigQuery 관리자를 선택한 다음 계속을 클릭합니다.


  • 사용자가 이 서비스 계정에 접근할 수 있도록 허가를 받으면 완료를 누르십시오


  • 작업 아래의 "\8942;\"를 클릭하고 관리 키를 클릭하십시오.


  • 클릭하여 키 만들기, 클릭하여 새 키 만들기


  • 버튼 유형은 "JSON"상태를 유지하고 제작을 클릭하여 데스크톱으로 다운로드

  • mkdir /.gcp에 숨겨진 폴더를 만들고 mv ~/Desktop/<作成した鍵>.json ~/.gcp/에서 이동
  • 3. Docker에서 BigQuery 이동하기


    드디어 빅큐리를 시작하겠습니다.
  • $ git clone [email protected]:yuiki-iwayama/100knocks-preprocess-BigQuery.git에서 창고clone을 임의의 디렉터리로
  • $ cd 100knocks-preprocess-BigQuery에서 디렉토리 이동
  • .env 편집기에서 파일을 열고 다음 항목을 설명합니다
  • GCP_KEY_PATH="~/.gcp/<제작된 키>.json"기재
  • GCP_IAM= 서비스 계정을 기재한 우편물

  • GCP_PROJECT_ID= "##1. 프로젝트 만들기"에서 만든 프로젝트의 ID를 입력합니다.
    ※ 내비게이션 메뉴 -> 홈페이지-> 항목 ID를 통해 확인 가능

  • GCP_DATA= 향후 제작할 데이터 세트 명칭 기재
  • .env
    GCP_KEY_PATH=
    GCP_IAM=
    GCP_PROJECT_ID=
    GCP_DATA=
    
  • $ docker-compose up -d --buildbuild로 (build가 끝나도 데이터를 보냈기 때문에 시간이 좀 걸린다)
  • $ docker-compose logs에서 데이터 세트의 생성 성공 여부를 확인할 수 있습니다.

  • 그런 다음 BigQuery에 데이터 세트가 생성되었는지 확인할 수 있습니다.


  • 브라우저 액세스localhost:8888로 JuptyterLab 시작
  • BigQuery.ipynb를 열고 첫 번째 단원과 두 번째 단원을 실행합니다. 순조롭게 진행되면 빅Query로 100개를 두드릴 수 있습니다.

  • Python.ipynb 첫 번째 단원도 실행하면 데이터는 BigQuery에서 데이터 프레임에 저장되기 때문에 100개의 노크를 할 수 있다
  • 참고 자료

  • The-Japan-DataScientist-Society/100knocks-preprocess
  • Cloud SDK 설치
  • BigQuery로 로컬 csv 파일 가져오기
  • pandas-gbq와 비교
  • 각주
    아마 무료 범위(조회: 매월 1TB, 저장: 매월 10GB)에서 가능할 것입니다. 비용에 대해서는 참고하십시오Google BigQuery의 유료 체계 설명
    참조↩︎
    참조1단계: Google Cloud 계정 만들기
    모래상자 상태라면 컨테이너 운송 60일 후 테이블이 사라질 수 있지만 아직 검증되지 않았습니다. 자세한 상황을 확인해 주십시오↩︎

    좋은 웹페이지 즐겨찾기