【GCP】기다려 로야 클라우드 아키텍트! ! ~분석 기반편~
이 기사는 아래의 책을 참고로 합니다.
Google Cloud Platform Enterprise 설계 가이드
빅데이터
데이터를 효과적으로 활용하려면 올바른 형태로 성형하고 시각화하는 것이 중요합니다.
그래서 데이터 분석 기반의 이야기가 나옵니다.
이하 샘플의 구성도입니다.
샘플 구성도
세세한 곳 서비스 내용과 구축의 순서를 쫓아 갑니다.
Pub/Sub
실시간 스트리밍 데이터를 처리하는 데 사용됩니다.
예를 들어, 엔드포인트에 POST하면 해당 데이터를 BigQuery 등으로 보낼 수 있습니다.
구성은 게시자와 수신기입니다.
Pub/Sub란? | Cloud Pub/Sub 문서 | Google Cloud
Google Cloud Pub/Sub 입문 | 츠카비의 기술 일기
BigQuery
데이터를 수집, 저장, 분석 및 다양한 서비스를 제공합니다.
데이터 레이크, 데이터웨어 하우스 및 데이터 마트의 모든 역할을 가질 수 있습니다.
BigQuery 소개 | Google Cloud
요금이 무섭다고 생각하는 분은 많습니다만, 올바르게 사용하면 금액은 억제되는 것 같습니다.
【BigQuery】 요금 제한 이야기 - Qiita
Cloud Dataflow
파이프라인을 구축하는 데 사용됩니다.
배치와 스트리밍 서비스 모두 지원됩니다.
머페이의 대규모 일괄 처리 - Mercari Engineering Blog
Cloud Dataflow FAQ | 클라우드 서비스 철저 비교·철저 해설 (2020년판)
ETL이란 ~ 지금도들을 수 없다!? ETL의 기초 ~ |
또 파이프라인 구축으로 검색했을 때,
Cloud Composer
여러 단계로 구성된 복잡한 데이터 처리를 수행하는 경우 Cloud Composer를 사용하고 그렇지 않으면 Cloud Dataflow를 사용하면 좋을 것입니다.
Cloud Dataflow에서 Cloud SQL에서 BigQuery로 서버리스 데이터 연동 - suusan2 보다 인용
Cloud Dataproc
Hadoop, Spark 환경을 클라우드에서 사용할 수 있습니다.
이것 사용하는 것은 당분간 끝이 될 것 같다. . . . .
Dataproc이란 무엇입니까? | Dataproc 문서 | Google Cloud
Cloud Datalab
Jupyter notebook군요 w.
빠른 시작 | Cloud Datalab 문서 | Google Cloud 보다 인용
단계적으로 정돈
데이터 분석 기반을 어떻게 단계적으로 도입해 나가는지를 적어 둡니다.
큰 흐름으로서 ①배치 처리→②로그→③ 실시간 이벤트 순으로 구축해 나갈 것이라고 생각합니다.
데이터 수집
다음 구성을 사용하여 먼저 데이터를 수집합니다.
여기서는 일괄 처리를 다루는 것으로 가정합니다.
구성
시각화
데이터를 수집한 것만으로는 수집한 데이터를 확인할 수 없으므로
Cloud Dataflow
를 사용하여 시각화합니다.여기는
Cloud Datalab
어쨌든 대체할 수 있다고 생각합니다.구성
로그 수집
어플리케이션 측의 로그를 흘려 보내는 이미지입니다.
구성
실시간 분석
고객 행동의 로그 데이터를 실시간으로 취득하고 싶은 경우에 드디어 아래와 같은 서비스가 나옵니다.
구성
redash
에 대해서는, 상당히 먼저 될 것 같아
Reference
이 문제에 관하여(【GCP】기다려 로야 클라우드 아키텍트! ! ~분석 기반편~), 우리는 이곳에서 더 많은 자료를 발견하고 링크를 클릭하여 보았다 https://qiita.com/wqwq/items/8e7a163ae69301e277d7텍스트를 자유롭게 공유하거나 복사할 수 있습니다.하지만 이 문서의 URL은 참조 URL로 남겨 두십시오.
우수한 개발자 콘텐츠 발견에 전념 (Collection and Share based on the CC Protocol.)