데이터 호수 해석

5185 단어 spark bigdata analytics schemaonread

뭐--유명한 유비

데이터 창고는 물 생산 업체처럼 특정한 크기와 모양의 병에 물을 담을 수 있다.그러나 데이터 호수는 많은 물이 유입되는 곳으로 모든 사람이 원하는 방식으로 물을 얻을 권리가 있다.

왜?

데이터 호수는 새로운 데이터 창고다.그것은 데이터 창고의 목표와 마찬가지로 일상적인 업무 데이터 처리 이외의 업무 통찰력을 지원한다.데이터 웨어하우스 발전의 주요 요인은 다음과 같습니다.

대량의 비정형 데이터

우리가 점점 더 많은 데이터(텍스트,xml,json,노래,음성,센서 데이터...)를 수집함에 따라.이것이 바로 우리가 더 좋은 처리 방법을 찾아야 하는 이유다.
ETL 프로세스 중 데이터를 변환할 수 있습니다.그러나 만약에 우리가 특정한 전환 형식을 결정하고 있다면 우리는 사후 분석에 필요한 유연성이 없을 것이다.이것은 심층 json 구조에 적용되며, 우리는 일부 원소만 추출하고 싶지 않다.또 다른 예는 텍스트/pdf 문서입니다. 이 문서들은blob로 저장해야 하지만, 일부 지표를 추출하기 위해 처리되지 않으면 쓸모가 없습니다.

빅데이터 기술의 굴기

HDFS(Hadoop 분산 파일 시스템)는 상품 하드웨어에 수 PB의 데이터를 저장하는 것을 가능하게 한다.MPP(대규모 병렬 프로그래밍) 데이터베이스와 비교하면 TB당 원가가 더 낮다.
MapReduce 등 새로운 처리 도구 덕분에 우리는 저장된 같은 하드웨어에서 대규모로 데이터를 처리할 수 있다.
읽기 모드는 데이터 분석을 가능하게 하고 미리 정의된 모드를 삽입하거나 비구조화된 텍스트를 처리할 필요가 없습니다.

새로운 역할 및 고급 분석

데이터가 새로운 석유로 간주됨에 따라 사람들은 그 중에서 가장 큰 가치를 얻기를 바란다.데이터 과학자들은 일반적으로 외부에서 온 데이터 집합을 표시하고 연결해야 한다.이런 상황에서 데이터 창고 체계 구조는 업무 사용자에게 깨끗하고 일치하며 성능이 좋은 모델을 제공하는 데 작용하지 않는다.데이터 호수는 이런 유연하고 임시적인 자연 데이터 탐색 활동에 대응해야 한다.그 밖에 기계 학습이나 자연 언어 처리는 iastar schema가 제공하는 형식과 다른 접근 데이터를 필요로 한다.

이익.

비용 절감 - 추가 가능성

ETL 마운트 해제: 같은 저장 및 처리 하드웨어, 하나의 빅데이터 집단.특별한 ETL 그리드 또는 임시 영역에 대한 추가 스토리지가 더 이상 필요하지 않습니다.

고/기지 데이터의 일치 사이즈나 데이터 시장의 사이즈 모델링

TB당 저렴한 비용으로 분석에 사용할 수 있는 저/미지의 가치 데이터 저장 가능

읽기 모드

Hadoop 생태계의 빅데이터 도구, 예를 들어 Spark가 생기면 처리 파일은 데이터베이스를 처리하는 것처럼 간단하지만 데이터베이스를 만들고 삽입할 필요가 없다.이것은 읽기 모드라고 하는데 테이블의 모드에 대해 추정되거나 지정되며 데이터가 삽입되지 않지만 읽을 때 데이터는 지정한 모드에 따라 검사됩니다.

Spark 예제 모드 추리

dfExample = spark.read.csv("data/example.csv", 
                            inferSchema=True,
                            header=true,
                            sep=";"
                           )

패턴은 추정되지만, 우리는 유형 설정이 정확함을 확보하기를 희망합니다.예를 들어, 날짜 필드는 문자열로 설정할 수 없습니다.
형식과 형식이 잘못된 데이터를 더 잘 제어하기 위해서, 우리는 모든 것이 정확하다는 것을 확보하기 위해 패턴 (StructType) 을 지정할 수 있습니다.그럼에도 불구하고, 그것은 여전히 패턴에 기초한 것이다.
우리는 또 우리의 패턴에 맞지 않는 줄에 무슨 일이 발생해야 하는지를 지정할 수 있다.옵션에는 포기, 공백으로 바꾸기 또는 실패가 포함됩니다.

exampleSchema = StructType([
                 StructField("id", IntegerType()),
                 StructField("amount", IntegerType()),
                 StructField("info", StringType()),
                 StructField("date", DateType())
                ])

dfExample = spark.read.csv("data/example.csv", 
                            schema=exampleSchema,
                            sep=";",
                            mode="DROPMALFORMED"
                           )

그것으로 우리는 데이터베이스에 삽입하지 않은 상황에서 동태적으로 직접 조회를 진행할 수 있다.

dfExample.groupBy("info")\
         .sum("amount")\ 
         .orderBy(desc("sum(amount)"))\
         .show(3)

임시 테이블을 작성하여 SQL을 작성할 수도 있습니다.여기에는 데이터베이스에 어떤 내용도 쓰지 않을 것이다.

dfExample.createOrReplaceTempView("example")
spark.sql("""
          SELECT info, sum(amount) as total_amount
          FROM example
          GROUP BY info
          ORDER BY total_amount desc 
          """).show(3)

비정형 데이터 지원

에서 파일을 읽고 쓸 수 있습니다.

텍스트 기반 형식

이진 형식(예: Avro(공간 절약) 및 Parquet 기둥형 스토리지 및

압축 형식, 예를 들어 gzip과 snappy

dfText = spark.read.text("text.gz")
dfSample = spark.read.csv("sample.csv")

Spark는 다양한 파일 시스템(로컬, HDFS, S3...)에서 파일을 읽고 쓸 수 있습니다.그리고 각종 데이터베이스(SQL,MongodB,Cassandra,Neo4j 등)
추상적으로 공개된 모든 것들, 즉 데이터 프레임은 SQL로 처리할 수 있다.

문제.

데이터 호수는 혼란스러운 데이터 쓰레기장으로 쉽게 바뀔 수 있다.

데이터 관리는 실현하기 어렵다. 왜냐하면 데이터 호수는 부문별 데이터와 외부 데이터에 사용할 수 있기 때문이다.

데이터 호수가 어떤 상황에서 데이터 창고나 데이터 시장을 교체, 하역하거나 병행 작업을 해야 하는지 알 수 없다.모든 상황에서 3차원 모델링은 가치 있는 방법이다.

데이터 호수 - 요약

모든 유형의 데이터를 환영합니다.

데이터는 "있는 그대로"저장되며 나중에 변환됩니다.ETL 대신 로드 변환 - ELT 추출

데이터는 읽을 때 모드로 처리됩니다.변환하기 전에 미리 정의된 별 모드가 없음

모든 빅데이터 처리 도구는 대규모 병행성과 확장성을 제공한다.우리는 비싼 MPP 데이터베이스를 필요로 하지 않고 기둥형 저장소를 사용할 수 있다.

비교

데이터 웨어하우스
데이터 호수
데이터 테이블
테이블 형식
모든 형식
데이터 값
높다
고가치, 중간 가치 및 발견 필요
섭취하다
ETL
영어 수업
데이터 모델
일치 차원이나 데이터 시장과 OLAP 다차원 데이터 집합을 갖춘 별과 눈꽃
모든 진술은 가능하다
패턴
쓰기 모드 (촬영 전 알 수 있음)
읽기 모드(분석 중 실행 중)
테크니컬
MPP 데이터베이스, 비싼 디스크 및 연결
합병 행위 제1원칙의 상품 하드웨어
데이터 품질
일관성 및 명확한 액세스 규칙 중시
모든 것이 가능하다
사용자
비즈니스 분석가
데이터 과학자, 비즈니스 분석가 및 ML 엔지니어
분석하다.
보고 및 비즈니스 인텔리전스 시각화
기계 학습, 도형 분석과 데이터 탐색

Reference

이 문제에 관하여(데이터 호수 해석), 우리는 이곳에서 더 많은 자료를 발견하고 링크를 클릭하여 보았다 https://dev.to/barbara/data-lake-explained-3cel

텍스트를 자유롭게 공유하거나 복사할 수 있습니다.하지만 이 문서의 URL은 참조 URL로 남겨 두십시오.

우수한 개발자 콘텐츠 발견에 전념 (Collection and Share based on the CC Protocol.)

스크롤 코드에 따라 이미지 높이를 동적으로 변경합니다

[SCOI 2011] 사탕 차별 제약

좋은 웹페이지 즐겨찾기

개발자 우수 사이트 수집

개발자가 알아야 할 필수 사이트 100선 추천 우리는 당신을 위해 100개의 자주 사용하는 개발자 학습 사이트를 정리했습니다