Spark DataFrame 기본 동작

DataFrame 의 개념 은 R/Pandas 언어 에서 나 왔 지만 R/Pandas 은 runs on One Machine 에 불과 하고 DataFrame 분포 식 이 며 인터페이스 가 간단 하고 사용 하기 쉽다.

Threshold: Spark RDD API VS MapReduce API

One Machine:R/Pandas

홈 페이지 설명http://spark.apache.org/docs/2.1.0/sql-programming-guide.html#datasets- and - dataframes 는 다음 과 같 습 니 다.

A Dataset is a distributed collection of data: 분포 식 데이터 세트

A DataFrame is a Dataset organized into named columns. (RDD with Schema) 열 (열 명, 열의 유형, 열 값) 형식 으로 구 성 된 분포 식 데이터 세트 로 열 에 따라 서로 다른 이름

을 부여 합 니 다.

An abstraction for selecting,filtering,aggregation and plotting structured data

It is conceptually equivalent to a table in a relational database or a data frame in R/Python

RDD 와 DataFrame 의 비교:

RDD 운행 하기 시작 하면 속 도 는 집행 언어 에 따라 다르다.

java/scala  ==> jvm
python ==> python runtime

DataFrame 운행 하기 시작 하면 실행 언어 가 다 르 지만 운행 속도 가 같다.

java/scala/python ==> Logic Plan

홈 페이지 의 예 를 들 어 DataFrame 의 기본 조작 을 알 아 보 자.

import org.apache.spark.sql.SparkSession

/**
  * DataFrame API    
  */
object DataFrameApp {
  def main(args: Array[String]): Unit = {

    val spark = SparkSession
      .builder()
      .appName("DataFrameApp")
      .master("local[2]")
      .getOrCreate();

    //  json       dataframe
    val peopleDF = spark.read.json("C:\\Users\\Administrator\\IdeaProjects\\SparkSQLProject\\spark-warehouse\\people.json");
    // Prints the schema to the console in a nice tree format.
    peopleDF.printSchema();

    //        20   
    peopleDF.show();

    //         ： select name from table
    peopleDF.select("name").show();

    //           ，       ： select name, age+10 as age2 from table
    peopleDF.select(peopleDF.col("name"), (peopleDF.col("age") + 10).as("age2")).show();

    //           ： select * from table where age>19
    peopleDF.filter(peopleDF.col("age") > 19).show();

    //         ，         ： select age,count(1) from table group by age
    peopleDF.groupBy("age").count().show();

 spark.stop();
  }
}

이 내용에 흥미가 있습니까?

현재 기사가 여러분의 문제를 해결하지 못하는 경우 AI 엔진은 머신러닝 분석(스마트 모델이 방금 만들어져 부정확한 경우가 있을 수 있음)을 통해 가장 유사한 기사를 추천합니다:

다양한 언어의 JSON

JSON은 Javascript 표기법을 사용하여 데이터 구조를 레이아웃하는 데이터 형식입니다. 그러나 Javascript가 코드에서 이러한 구조를 나타낼 수 있는 유일한 언어는 아닙니다. 저는 일반적으로 '객체'{}...

텍스트를 자유롭게 공유하거나 복사할 수 있습니다.하지만 이 문서의 URL은 참조 URL로 남겨 두십시오.

CC BY-SA 2.5, CC BY-SA 3.0 및 CC BY-SA 4.0에 따라 라이센스가 부여됩니다.

좋은 웹페이지 즐겨찾기

개발자 우수 사이트 수집

개발자가 알아야 할 필수 사이트 100선 추천 우리는 당신을 위해 100개의 자주 사용하는 개발자 학습 사이트를 정리했습니다