데이터엔지니어 실시간 빅데이터 처리를 위한 Spark & Flink Online 9) DataFrame DataFrame의 사용법 DataFrame의 데이터 타입 DataFrame에서 가능한 연산들 DataFrame에서의 Aggregation 작업들 한마디로 : 관계형 데이터셋 : RDD + Relation RDD가 함수형 API를 가졌다면 DataFrame은 선언형 API 자동으로 최적화가 가능 타입이 없다 DataFrame: RDD의 확장판 지연 실행 (Lazy Execution) 분산 저... 패스트캠퍼스데이터엔지니어데이터엔지니어 실시간 빅데이터 처리를 위한 Spark & Flink Online 10) Catalyst Optimizer 및 Tungsten Project 작동원리 Catalyst와 Tungsten 두 백엔드로 최적화 된다 Catalyst Logical Plan을 Physical Plan으로 바꾸는 일 Logical Plan 최적화 Physical Plan 만들기: Spark에서 실행 가능한 Plan으로 변환 코드 제너레이션: 최적화된 Physical Plan을 Java Bytecode로 Logical Plan이란? 데이터가 어떻게 변해야 하는지 정의하... 패스트캠퍼스데이터엔지니어데이터엔지니어 실시간 빅데이터 처리를 위한 Spark & Flink Online 5) Key-Value RDD Operations & Joins groupByKey reduceByKey mapValues keys join (+ leftOuterJoin, rightOuterJoin) countByKey groupBy: 주어지는 함수를 기준으로 Group groupBy groupByKey: 주어지는 Key를 기준으로 Group reduce: 주어지는 함수를 기준으로 요소들을 합침 (action) reduceByKey: Key를 기준으로 ... 데이터엔지니어패스트캠퍼스데이터엔지니어
실시간 빅데이터 처리를 위한 Spark & Flink Online 9) DataFrame DataFrame의 사용법 DataFrame의 데이터 타입 DataFrame에서 가능한 연산들 DataFrame에서의 Aggregation 작업들 한마디로 : 관계형 데이터셋 : RDD + Relation RDD가 함수형 API를 가졌다면 DataFrame은 선언형 API 자동으로 최적화가 가능 타입이 없다 DataFrame: RDD의 확장판 지연 실행 (Lazy Execution) 분산 저... 패스트캠퍼스데이터엔지니어데이터엔지니어 실시간 빅데이터 처리를 위한 Spark & Flink Online 10) Catalyst Optimizer 및 Tungsten Project 작동원리 Catalyst와 Tungsten 두 백엔드로 최적화 된다 Catalyst Logical Plan을 Physical Plan으로 바꾸는 일 Logical Plan 최적화 Physical Plan 만들기: Spark에서 실행 가능한 Plan으로 변환 코드 제너레이션: 최적화된 Physical Plan을 Java Bytecode로 Logical Plan이란? 데이터가 어떻게 변해야 하는지 정의하... 패스트캠퍼스데이터엔지니어데이터엔지니어 실시간 빅데이터 처리를 위한 Spark & Flink Online 5) Key-Value RDD Operations & Joins groupByKey reduceByKey mapValues keys join (+ leftOuterJoin, rightOuterJoin) countByKey groupBy: 주어지는 함수를 기준으로 Group groupBy groupByKey: 주어지는 Key를 기준으로 Group reduce: 주어지는 함수를 기준으로 요소들을 합침 (action) reduceByKey: Key를 기준으로 ... 데이터엔지니어패스트캠퍼스데이터엔지니어