BigQuery where 절을 사용하는 동안 모든 레코드를 SELECT or 특정 레코드 만 SELECT를 실현하는 방법 Redash와 같은 선택 상자에서 ID1을 선택하면 해당 ID의 레코드를, ALL을 선택하면 필터링하지 않고 모든 레코드를 검색하고 싶을 수 있습니다. 그래서 SQL 에서 WHERE id = 에 1 을 기재하면 id 1 의 레코드를 취득, ALL 와 같은 것을 기재하면 전체 레코드를 취득하는 방법을 생각해 보았습니다. ※ 대상 테이블이 문자열의 고유 식별자를 가지고 있는 것이 전제 조건이 됩... MySQLBigQueryredash Redash에서 풀다운 필터 만들기 ~ BigQuery의 public-data를 사용하여 연습 ~ Redash는 SQL이 쓸 수만 있으면, 나머지는 GUI로 플롯을 좋은 느낌으로 만들 수 있으므로 매우 편리합니다. 이 편리한 기능보다 편리하게 사용할 수 있게 되고 싶습니다. 나 자신 SQL 돌출이라고 하는 일도 있어 나날의 업무로부터 발견한 tips등을 남겨 가면 된다고 생각하고 있습니다. 이미지적으로는 이런 느낌의 풀다운 필터를 플롯에 붙이고 싶습니다. 이번에는 이 Redash에서 필터... SQLBigQueryredash 【BigQuery 초보자의 잡기 vol.3】Re:dash 입력치를 IN구의 조건으로 사용~실무의 분석으로 사용하기 쉽게 한 이야기 주식회사 오즈비전 유코 ( )입니다. 최근 BigQuery에서 쿼리를 작성하는 삶을 살았기 때문에 오늘도 그 관계가 있습니다. 오즈비전에서는 AWS에 세워진 MySQL Aurora 및 Google Analytics와 같은 데이터 소스를 탐색하기 위해 Re:dash를 세워 운영하고 있습니다. 최근 BigQuery가 그 데이터 소스에 동료 들어가고, 그 자리수 차이의 연산 능력에 반하는 사람이 ... BigQueryredash Firebase Analytics의 맞춤 이벤트 데이터를 이달, 지난 달로 좁히고 redash로 봅니다. 한 것을 Redash로 표시하고 싶고 일단 할 수 있었으므로 메모. 기능을 사용하여 애널리틱스 데이터와 앱 데이터를 통합할 수 있습니다. 자세한 Firebase 데이터를 BigQuery에 넣는 방법은 여기 에서 확인하십시오. Redash에서 BigQuery를 데이터 소스에 추가하려면 을 확인하세요. Firebase 데이터 소스를 선택할 수 있게 되면 아래와 같은 날짜별로 작성된 이벤트 데이터... FirebaseBigQueryredash SQL로 월별 챌레이트(해약률·탈퇴율)·계속율을 내는 Chan Rate(해약률·탈퇴율)이란, 모든 유저 중 해지한 유저의 비율을 나타내는 지표입니다. 연속율은 1 - チャーンレート 로 나옵니다. 이번에는 전월부터의 찬율을 보겠습니다. 2019-06일 때는 2019-05시점의 사용자수의 챌레이트를, 2019-05일 때는 2019-04시점의 사용자수의 챌레이트를, 처럼 변동적으로 하는 SQL입니다. ※값은 적당합니다. 첫 번째 데이터는 전월이 없으... MySQLSQLBigQueryredash BigQuery/MySQL로 일일 가상 테이블 (연속 가상 테이블) 만들기 이런 식으로 과거 1년분의 가상 테이블을 작성하는 SQL입니다. 일별 기반 가상 테이블을 누적 그래프 작성시의 기준으로 합니다. JOIN 시켜 가는 형태로 이용합니다. BigQuery MySQL 참고... MySQLSQLBigQueryredash Re:dash에서 Firebase Analytics의 BigQuery에서 코호트를 표시하는 방법 FirebaseAnalytics를 사용하고 있습니까? 무료로 여기까지 해주는 것은 꽤 고맙습니다. 나는 특히 Retension 페이지를 잘 보지만 여기에서는 필터링 할 수 없으며 새로운 사용자에 대한 코호트 만 볼 수 있습니다. 신규 유저 뿐만이 아니라, 어느 시점에서 특정 상태였던 사람의 계속율을 보고 싶은 경우가 있었기 때문에, 처음에 신규 유저에 관한 코호트를 Re:dash로 재현하기로... FirebaseAnalyticsFirebaseBigQueryredash Embulk에서 MySQL의 date형을 BigQuery에 보낸다. 2019-11-12 Embulk에서 MySQL 데이터를 BigQuery로 보냅니다. 그때 MySQL date型 를 BigQuery date型 로 편하게 보내면 에러가 됩니다. 그 대응 등을 씁니다. MySQL의 설정에서는 컬럼의 지정 만 BigQuery schema 설정에서 MySQL date型를 BigQuery에서도 date型 scheme.json "Error while reading data, error m... MySQLEmbulkubuntu18.04BigQuery CloudFront 액세스 로그를 BigQuery로 분석 여러가지로 CloudFront의 로그를 Athena라든지가 아니라 BigQuery로 분석하고 싶었기 때문에 시행착오한 이야기. 로그를 저장하는 버킷 만들기 S3에 적당하게 버킷을 작성해 둔다. CloudFront에서 로그 검색 설정 로그를 얻으려는 배포판 설정 열기 로그 설정 사용 이상의 설정을 함으로써, S3에 액세스 로그가 보존되어 간다. 로그에 대한 자세한 내용은 을 참조하십시오. Em... CloudFrontS3BigQueryEmbulk BigQuery로 데이터 로드를 몇 배 가속화하는 방법 BigQuery에 데이터를 로드할 때 압축을 하면 로드 시간이 늘어날 수 있습니다. S3에 배치한 파일을 EC2의 embbulk에 의해 BigQuery로 전송합니다. 전송할 파일을 S3에 배치합니다. S3 파일을 BigQuery로 전송하려면 다음 YAML 파일을 사용합니다. out의 compression을 GZIP , NONE로 할지에 따라 전송 시간이 어떻게 바뀌는지를 검증했습니다. 압축 ... GoogleCloudPlatformgoogleEmbulkBigQuery SQL에서 table (view) 종속성 다이어그램 (PlantUML)을 만드는 파이썬 코드를 작성했습니다. 이런 식의 table(view)의 의존관계도를.... ↓이런 느낌의 SQL군으로부터, 출력하기 위한 Python 코드를 썼다고 하는 이야기입니다. (그림 작성에는 PlantUML을 사용했습니다) 에 따르면 PlantUML은 오픈 소스 UML 다이어그램 작성을 위한 텍스트 기반 언어입니다. 그렇습니다. 다양한 모델 다이어그램을 만들 수 있습니다. 배우기 위해 서있는 사이트를 나란히 둡니다. 기... 파이썬BigQueryplantuml BigQuery에서 TreasureData로 데이터 가져오기 을 참고로 준비된 데이터 커넥터를 이용합니다. TreasureData의 커넥터 설정을 준비하기 위해 필요한 것은 다음과 같습니다. BigQuery 프로젝트 ID 가이드였던 테이블 만들기 JSON keyfile을 발행하기 위해 서비스 계정 키를 작성하십시오. GCP Console에서 IAM 및 관리 페이지를 엽니다. IAM 및 관리 페이지 열기 프로젝트를 선택하고 계속을 클릭합니다. 왼쪽 탐색... TreasureDataBigQuery Snowflake, BigQuery, Redshift 비교 DWH 비교에 매우 유익한 동영상을 배견했으므로, 자신용으로 정리했습니다. Data Engineering Study #5 「소문의 Snowflake Deep Dive」1:13:40 로부터의 사례 소개1 1. 성능, 보안, 백업 기능 등에는 큰 차이가 없습니다. 2. 자체 플랫폼 통합을 고려할 때 BigQuery(=GCP) 또는 Redshift(=AWS) 3. 확장성과 비용이 비교 포인트 스노... BigQueryredshift스노우플레이크 Redshift 데이터를 BigQuery에 로드 BigQuery를 활용하기 위해 Redshift 데이터를 BigQuery로 마이그레이션해야 했습니다. Rails에서 Redshift 쿼리를 실행할 수 있도록하십시오 bq 명령을 실행할 수 있어야합니다 크게는 다음과 같은 흐름으로 작성했습니다. Redshift 데이터를 S3으로 언로드 대상 테이블의 스키마 파일 만들기 bq load 명령으로 데이터 가져 오기 언로드를 위한 IAM 역할 만들기 ... BigQueryredshiftRails5 BigQueryGIS에서 OpenStreetMap 데이터를 터치해보세요 wiki처럼 누구나 편집 추가할 수 있는 것 같습니다. 지도 정보는 크게 세 개의 객체로 구성되어 있습니다. 대표하는 것 node 건물, 라벨, 교차로 등 way 건물, 도로, 노선, 경계, 강 등의 일부 하나의 노드나 way로 표현할 수 없는 것 이러한 객체에 태그를 붙이는 것으로 역할을 명확하게 하고 있습니다. 이 데이터는 BigQuery의 공개 데이터 세트에서 공개됩니다 . BigQue... BigQueryGISBigQueryOpenStreetMap 일본어 컬럼을 자동으로 알파 컬럼으로 변환하는 React 웹 앱을 만들어 보았습니다. BigQuery에 csv 파일등의 데이터를 로드할 때에, 컬럼명의 유니코드 대응이 아직 되어 있지 않은 것으로, 만약 컬럼명이 일본어의 경우는 헤더를 영숫자로 변환할 필요가 나온다. 소량의 컬럼이라면 손으로 변환하는 것이 좋습니다. 그러나 많은 컬럼이있는 경우 상당히 번거로울 수 있습니다. 이러한 장면에서 활약할 것 같은 일본어 컬럼의 csv 파일을 자동으로 영문자 컬럼으로 변환하여 데이터를... ReactTypeScriptBigQueryNode.js BigQuery 결과(TSV)를 쉘 예술로 Markdown으로 만들기 xclip 있다면 그렇지 않으면 bqresult.txt라는 파일에 결과를 붙여 넣습니다. 또한, 여기서 Markdown은 에 준합니다. 먼저 BigQuery 화면에서 원하는 쿼리를 실행합니다. 이번에는 샘플로서 정말 아무 의미도 없는 쿼리를 실행합니다. 실행 결과를 "결과 저장"→ "클립보드에 복사"합니다. 우선 bqresult.txt 라는 파일에 붙여넣습니다. bqresult.txt 이 클... 쉘 스크립트BashBigQuery GCP BigQuery 데이터를 특정 시점으로 전환(PITR) 소위 포인트 인 타임 복원 (Point In Time Restore, PITR) 등이라고 불리는 데이터를 특정 지점으로 되돌리는 기능이 GCP BigQuery에서도 사용할 수 있다는 것을 알았으므로 시도해 보겠습니다. 기본적으로 아래 문서와 같습니다만, 실제로 해 보겠습니다. 2021/07/13 시점의 GCP BigQuery를 사용하고 있습니다. sandbox 라는 데이터 세트를 만들어 두고... gcpBigQuery BigQuery의 승인된 뷰 설정 방법 여러 프로젝트에서 BigQuery를 사용하고 있다면 프로젝트 전반의 뷰를 사용하고 싶은 장면이 자주 방문할 것이라고 생각합니다. 거기에 권한 문제가 얽혀 오면 매우 어색하지만, 당사에서도 이 문제를 밟은 적이 있었습니다. 당사에서는 BigQuery로 데이터 레이크를 구축하고 있습니다만, 보안의 관점에서 이하와 같은 조건을 마련하고 있었습니다. 데이터 레이크와 데이터 웨어하우스는 별도의 프로젝... gcp데이터 분석 기반BigQuery GCS의 TSV 파일에서 BQ 테이블 만들기 Cloud Console과 Cloud Shell을 활용하여 GCS의 TSV 파일을 소스로 BigQuery 테이블을 만듭니다. Cloud Console은 CSV 파일이면 GCS 가져오기로 테이블을 만들 수 있지만 TSV 파일은 지원하지 않으므로 Cloud Shell에서 전송 처리가 필요합니다. Cloud Console에서 스키마를 정의하고 빈 테이블을 만듭니다. 스키마 정의 가져올 데이터의 스... gcpBigQuery
where 절을 사용하는 동안 모든 레코드를 SELECT or 특정 레코드 만 SELECT를 실현하는 방법 Redash와 같은 선택 상자에서 ID1을 선택하면 해당 ID의 레코드를, ALL을 선택하면 필터링하지 않고 모든 레코드를 검색하고 싶을 수 있습니다. 그래서 SQL 에서 WHERE id = 에 1 을 기재하면 id 1 의 레코드를 취득, ALL 와 같은 것을 기재하면 전체 레코드를 취득하는 방법을 생각해 보았습니다. ※ 대상 테이블이 문자열의 고유 식별자를 가지고 있는 것이 전제 조건이 됩... MySQLBigQueryredash Redash에서 풀다운 필터 만들기 ~ BigQuery의 public-data를 사용하여 연습 ~ Redash는 SQL이 쓸 수만 있으면, 나머지는 GUI로 플롯을 좋은 느낌으로 만들 수 있으므로 매우 편리합니다. 이 편리한 기능보다 편리하게 사용할 수 있게 되고 싶습니다. 나 자신 SQL 돌출이라고 하는 일도 있어 나날의 업무로부터 발견한 tips등을 남겨 가면 된다고 생각하고 있습니다. 이미지적으로는 이런 느낌의 풀다운 필터를 플롯에 붙이고 싶습니다. 이번에는 이 Redash에서 필터... SQLBigQueryredash 【BigQuery 초보자의 잡기 vol.3】Re:dash 입력치를 IN구의 조건으로 사용~실무의 분석으로 사용하기 쉽게 한 이야기 주식회사 오즈비전 유코 ( )입니다. 최근 BigQuery에서 쿼리를 작성하는 삶을 살았기 때문에 오늘도 그 관계가 있습니다. 오즈비전에서는 AWS에 세워진 MySQL Aurora 및 Google Analytics와 같은 데이터 소스를 탐색하기 위해 Re:dash를 세워 운영하고 있습니다. 최근 BigQuery가 그 데이터 소스에 동료 들어가고, 그 자리수 차이의 연산 능력에 반하는 사람이 ... BigQueryredash Firebase Analytics의 맞춤 이벤트 데이터를 이달, 지난 달로 좁히고 redash로 봅니다. 한 것을 Redash로 표시하고 싶고 일단 할 수 있었으므로 메모. 기능을 사용하여 애널리틱스 데이터와 앱 데이터를 통합할 수 있습니다. 자세한 Firebase 데이터를 BigQuery에 넣는 방법은 여기 에서 확인하십시오. Redash에서 BigQuery를 데이터 소스에 추가하려면 을 확인하세요. Firebase 데이터 소스를 선택할 수 있게 되면 아래와 같은 날짜별로 작성된 이벤트 데이터... FirebaseBigQueryredash SQL로 월별 챌레이트(해약률·탈퇴율)·계속율을 내는 Chan Rate(해약률·탈퇴율)이란, 모든 유저 중 해지한 유저의 비율을 나타내는 지표입니다. 연속율은 1 - チャーンレート 로 나옵니다. 이번에는 전월부터의 찬율을 보겠습니다. 2019-06일 때는 2019-05시점의 사용자수의 챌레이트를, 2019-05일 때는 2019-04시점의 사용자수의 챌레이트를, 처럼 변동적으로 하는 SQL입니다. ※값은 적당합니다. 첫 번째 데이터는 전월이 없으... MySQLSQLBigQueryredash BigQuery/MySQL로 일일 가상 테이블 (연속 가상 테이블) 만들기 이런 식으로 과거 1년분의 가상 테이블을 작성하는 SQL입니다. 일별 기반 가상 테이블을 누적 그래프 작성시의 기준으로 합니다. JOIN 시켜 가는 형태로 이용합니다. BigQuery MySQL 참고... MySQLSQLBigQueryredash Re:dash에서 Firebase Analytics의 BigQuery에서 코호트를 표시하는 방법 FirebaseAnalytics를 사용하고 있습니까? 무료로 여기까지 해주는 것은 꽤 고맙습니다. 나는 특히 Retension 페이지를 잘 보지만 여기에서는 필터링 할 수 없으며 새로운 사용자에 대한 코호트 만 볼 수 있습니다. 신규 유저 뿐만이 아니라, 어느 시점에서 특정 상태였던 사람의 계속율을 보고 싶은 경우가 있었기 때문에, 처음에 신규 유저에 관한 코호트를 Re:dash로 재현하기로... FirebaseAnalyticsFirebaseBigQueryredash Embulk에서 MySQL의 date형을 BigQuery에 보낸다. 2019-11-12 Embulk에서 MySQL 데이터를 BigQuery로 보냅니다. 그때 MySQL date型 를 BigQuery date型 로 편하게 보내면 에러가 됩니다. 그 대응 등을 씁니다. MySQL의 설정에서는 컬럼의 지정 만 BigQuery schema 설정에서 MySQL date型를 BigQuery에서도 date型 scheme.json "Error while reading data, error m... MySQLEmbulkubuntu18.04BigQuery CloudFront 액세스 로그를 BigQuery로 분석 여러가지로 CloudFront의 로그를 Athena라든지가 아니라 BigQuery로 분석하고 싶었기 때문에 시행착오한 이야기. 로그를 저장하는 버킷 만들기 S3에 적당하게 버킷을 작성해 둔다. CloudFront에서 로그 검색 설정 로그를 얻으려는 배포판 설정 열기 로그 설정 사용 이상의 설정을 함으로써, S3에 액세스 로그가 보존되어 간다. 로그에 대한 자세한 내용은 을 참조하십시오. Em... CloudFrontS3BigQueryEmbulk BigQuery로 데이터 로드를 몇 배 가속화하는 방법 BigQuery에 데이터를 로드할 때 압축을 하면 로드 시간이 늘어날 수 있습니다. S3에 배치한 파일을 EC2의 embbulk에 의해 BigQuery로 전송합니다. 전송할 파일을 S3에 배치합니다. S3 파일을 BigQuery로 전송하려면 다음 YAML 파일을 사용합니다. out의 compression을 GZIP , NONE로 할지에 따라 전송 시간이 어떻게 바뀌는지를 검증했습니다. 압축 ... GoogleCloudPlatformgoogleEmbulkBigQuery SQL에서 table (view) 종속성 다이어그램 (PlantUML)을 만드는 파이썬 코드를 작성했습니다. 이런 식의 table(view)의 의존관계도를.... ↓이런 느낌의 SQL군으로부터, 출력하기 위한 Python 코드를 썼다고 하는 이야기입니다. (그림 작성에는 PlantUML을 사용했습니다) 에 따르면 PlantUML은 오픈 소스 UML 다이어그램 작성을 위한 텍스트 기반 언어입니다. 그렇습니다. 다양한 모델 다이어그램을 만들 수 있습니다. 배우기 위해 서있는 사이트를 나란히 둡니다. 기... 파이썬BigQueryplantuml BigQuery에서 TreasureData로 데이터 가져오기 을 참고로 준비된 데이터 커넥터를 이용합니다. TreasureData의 커넥터 설정을 준비하기 위해 필요한 것은 다음과 같습니다. BigQuery 프로젝트 ID 가이드였던 테이블 만들기 JSON keyfile을 발행하기 위해 서비스 계정 키를 작성하십시오. GCP Console에서 IAM 및 관리 페이지를 엽니다. IAM 및 관리 페이지 열기 프로젝트를 선택하고 계속을 클릭합니다. 왼쪽 탐색... TreasureDataBigQuery Snowflake, BigQuery, Redshift 비교 DWH 비교에 매우 유익한 동영상을 배견했으므로, 자신용으로 정리했습니다. Data Engineering Study #5 「소문의 Snowflake Deep Dive」1:13:40 로부터의 사례 소개1 1. 성능, 보안, 백업 기능 등에는 큰 차이가 없습니다. 2. 자체 플랫폼 통합을 고려할 때 BigQuery(=GCP) 또는 Redshift(=AWS) 3. 확장성과 비용이 비교 포인트 스노... BigQueryredshift스노우플레이크 Redshift 데이터를 BigQuery에 로드 BigQuery를 활용하기 위해 Redshift 데이터를 BigQuery로 마이그레이션해야 했습니다. Rails에서 Redshift 쿼리를 실행할 수 있도록하십시오 bq 명령을 실행할 수 있어야합니다 크게는 다음과 같은 흐름으로 작성했습니다. Redshift 데이터를 S3으로 언로드 대상 테이블의 스키마 파일 만들기 bq load 명령으로 데이터 가져 오기 언로드를 위한 IAM 역할 만들기 ... BigQueryredshiftRails5 BigQueryGIS에서 OpenStreetMap 데이터를 터치해보세요 wiki처럼 누구나 편집 추가할 수 있는 것 같습니다. 지도 정보는 크게 세 개의 객체로 구성되어 있습니다. 대표하는 것 node 건물, 라벨, 교차로 등 way 건물, 도로, 노선, 경계, 강 등의 일부 하나의 노드나 way로 표현할 수 없는 것 이러한 객체에 태그를 붙이는 것으로 역할을 명확하게 하고 있습니다. 이 데이터는 BigQuery의 공개 데이터 세트에서 공개됩니다 . BigQue... BigQueryGISBigQueryOpenStreetMap 일본어 컬럼을 자동으로 알파 컬럼으로 변환하는 React 웹 앱을 만들어 보았습니다. BigQuery에 csv 파일등의 데이터를 로드할 때에, 컬럼명의 유니코드 대응이 아직 되어 있지 않은 것으로, 만약 컬럼명이 일본어의 경우는 헤더를 영숫자로 변환할 필요가 나온다. 소량의 컬럼이라면 손으로 변환하는 것이 좋습니다. 그러나 많은 컬럼이있는 경우 상당히 번거로울 수 있습니다. 이러한 장면에서 활약할 것 같은 일본어 컬럼의 csv 파일을 자동으로 영문자 컬럼으로 변환하여 데이터를... ReactTypeScriptBigQueryNode.js BigQuery 결과(TSV)를 쉘 예술로 Markdown으로 만들기 xclip 있다면 그렇지 않으면 bqresult.txt라는 파일에 결과를 붙여 넣습니다. 또한, 여기서 Markdown은 에 준합니다. 먼저 BigQuery 화면에서 원하는 쿼리를 실행합니다. 이번에는 샘플로서 정말 아무 의미도 없는 쿼리를 실행합니다. 실행 결과를 "결과 저장"→ "클립보드에 복사"합니다. 우선 bqresult.txt 라는 파일에 붙여넣습니다. bqresult.txt 이 클... 쉘 스크립트BashBigQuery GCP BigQuery 데이터를 특정 시점으로 전환(PITR) 소위 포인트 인 타임 복원 (Point In Time Restore, PITR) 등이라고 불리는 데이터를 특정 지점으로 되돌리는 기능이 GCP BigQuery에서도 사용할 수 있다는 것을 알았으므로 시도해 보겠습니다. 기본적으로 아래 문서와 같습니다만, 실제로 해 보겠습니다. 2021/07/13 시점의 GCP BigQuery를 사용하고 있습니다. sandbox 라는 데이터 세트를 만들어 두고... gcpBigQuery BigQuery의 승인된 뷰 설정 방법 여러 프로젝트에서 BigQuery를 사용하고 있다면 프로젝트 전반의 뷰를 사용하고 싶은 장면이 자주 방문할 것이라고 생각합니다. 거기에 권한 문제가 얽혀 오면 매우 어색하지만, 당사에서도 이 문제를 밟은 적이 있었습니다. 당사에서는 BigQuery로 데이터 레이크를 구축하고 있습니다만, 보안의 관점에서 이하와 같은 조건을 마련하고 있었습니다. 데이터 레이크와 데이터 웨어하우스는 별도의 프로젝... gcp데이터 분석 기반BigQuery GCS의 TSV 파일에서 BQ 테이블 만들기 Cloud Console과 Cloud Shell을 활용하여 GCS의 TSV 파일을 소스로 BigQuery 테이블을 만듭니다. Cloud Console은 CSV 파일이면 GCS 가져오기로 테이블을 만들 수 있지만 TSV 파일은 지원하지 않으므로 Cloud Shell에서 전송 처리가 필요합니다. Cloud Console에서 스키마를 정의하고 빈 테이블을 만듭니다. 스키마 정의 가져올 데이터의 스... gcpBigQuery