【AWS】AWS의 빅데이터 분석 기초를 이용하여 총결산한다【re:Invent 2018】

개시하다


라스베이거스에서는 AWS 최대 규모 행사인're:Invent 2018'이 절찬을 이어가고 있다.
빅데이터 분석 기반 세션에서 AWS 리소스를 활용해 포괄적으로 해설한 내용이 있는 것 같은데 간단하게 요약해 봤다.
Big Data Analytics Architectural Patterns and Best Practices
이름은 알지만 사용 상황을 잘 모르는 자신에게 기쁜 메시지인 만큼 비슷한 사람을 도울 수 있다면 좋겠다고 생각한다.

빅데이터 기반의 망라성 기술 후보


빅데이터의 구조를 고려하여

  • 올바른 도구 사용 여부
    데이터 구성, 지연 시간, 처리량, 데이터 액세스 형태에 따라 최적의 데이터 선택 필요
  • 관리 및 서버 없는 서비스의 효율적인 사용 여부
  • 비용이 최적화되었는지 여부
  • 머신러닝 베이스가 필요한가
  • 빅데이터 처리 프로세스

  • 수집, 저축, 가공/분석, 이용의 간단한 절차
  • 이 빅데이터 처리에서도 지연, 처리량, 비용을 고려해야 한다
  • 모으다

  • 데이터는 온도→Hot/Warm/Cold
  • 각각 데이터 사이즈, 순도, 원가 등 특징이 있다
  • 데이터 분류→분류로 데이터 저장 결정
  • 데이터 구성/데이터베이스 로깅
    → 데이터 이동
    → In-memory,NoSQL,SQL
  • 미디어 파일/로그
    - 파일/개체 데이터
    → File store,object store
  • 데이터 흐름
    - 이벤트 데이터
    → kafka,kinesis stream,kinesis firehose
  • Stream storage

  • Apach kafka
    스트리밍 미디어 플랫폼
    https://kafka.apache.org/
  • Amazon Kinesis Data Streams
    전체 관리 스트리밍 스토리지
    https://aws.amazon.com/jp/kinesis/data-streams/
    <--AWS 공식 지원!!
  • Amazon Kinesis Data Firehose
    전체 관리 데이터 전송 서비스
    https://aws.amazon.com/jp/kinesis/data-firehose/
  • 스트리밍/메시지 저장소 목록

  • File/object storage

  • Amazon Simple Storage Service(S3)
    대량의 데이터를 저장할 수 있다
    빅데이터 프레임워크 지원
    스토리지 기능 및 처리 기능 분리
    99%의 Durability
    동일한 영역에서 복제하는 데 비용이 들지 않음
    https://aws.amazon.com/jp/s3/
  • Cache & database

  • Amazon ElastiCache
    완벽하게 관리되는 Redis 서비스
    https://aws.amazon.com/jp/elasticache/
  • Amazon DynamoDB Accelerator
    DynamoDB의 In-MamryCache
    https://aws.amazon.com/jp/dynamodb/dax/
  • Amazon Neptune
    전체 관리 차트 데이터베이스
    https://aws.amazon.com/jp/blogs/news/amazon-neptune-a-fully-managed-graph-database-service/
  • Amazon DynamoDB
    전체 관리의 핵심 가치/문서 데이터베이스
    https://aws.amazon.com/jp/dynamodb/
  • Amazon RDS
    전체 관리 관계 데이터베이스
    https://aws.amazon.com/jp/rds/
  • 어떤 스토리지 디바이스를 사용해야 합니까?


    이하의 자문자답이 좋다
    *데이터의 구성은 무엇입니까?
    * 데이터 액세스 방법
    *데이터의 온도는 어느 정도입니까?
    * 솔루션 이전 비용은 어떻게 됩니까?

    분석하다.


    Interactive & batch Analytics

  • Amazon Elasticsearch Service
    완벽하게 관리되는 Elasticsearch
    https://aws.amazon.com/jp/elasticsearch-service/
  • Amazon Redshift & Amazon Redshift Spectrum
    모든 관리 데이터 소프트웨어 하우스
    spectrum 또한 S3에 쿼리 던지기 가능
    https://aws.amazon.com/jp/redshift/
  • Amazon Athena
    전체 관리 인터랙티브 조회 서비스
    https://aws.amazon.com/jp/athena/
  • Amazon EMR
    https://aws.amazon.com/jp/emr/
  • Streaming/message Analytics

  • Amazon Kinesis Data Analytics
    SQL에 대한 전체 관리 서비스
    https://aws.amazon.com/jp/kinesis/data-analytics/
  • Amazon KCL
    Amzon Kinesis Client Library
  • AWS Lambda
    서버 실행 없음
    S3 같은 서비스는 이벤트를 lamba를 대상으로 퍼블리쉬를 할 수 있습니다.
    Kiness 수영장에서 활동할 수 있어요.
  • 어떤 분석을 사용합니까?

  • Batch
    분 단위 ~ 시간 단위의 정기 처리 (Ex.Daily/Weekly/Monthly)
    → Amazon EMR
  • Interactive
    초 단위의 처리
    → Amazon Redshift/Amazon Athena/Amazon EMR
  • Stream
    밀리초 단위~초 단위의 즉시 처리
    → Amazon EMR(Spark Streaming)/Amazon Kinesis Data Analitics/Amazon KCL/AWS Lambda
  • 가공

  • ETL/ELL: Raw 데이터의 편리한 사용 준비
  • 표준화/분할/압축/스토리지 최적화
  • AWS 글루가 위력을 발휘합니다
  • 다음은 ETL/ELT의 기술 일람표입니다.

    활용단어참조


    데이터 과학 / 데이터 엔지니어


    분석 도구
  • AI Apps
  • Jupyter
  • Anaconda
  • Rstudio
  • 비즈니스 사용자


    시각화된 BI 도구 그룹
  • Kibana
  • Amazon QuickSight
  • Tableau
  • looker
  • Qlik
  • 빅데이터 기반 기술 일람



    유동식 분석



    상호작용 & 일괄 처리 분석



    끝말


    나는 들은 내용을 대충 정리했다.
    저는 개인적으로 흐르는 데이터의 저장과 처리에 대해 어떤 AWS 자원을 사용할 수 있는지 알게 되어 기쁩니다.평소에 일을 하지 않으면 지식을 얻기 힘들기 때문이다.

    좋은 웹페이지 즐겨찾기