Spark DataFrame 기본 동작
DataFrame
의 개념 은 R/Pandas
언어 에서 나 왔 지만 R/Pandas
은 runs on One Machine
에 불과 하고 DataFrame
분포 식 이 며 인터페이스 가 간단 하고 사용 하기 쉽다.홈 페이지 설명http://spark.apache.org/docs/2.1.0/sql-programming-guide.html#datasets- and - dataframes 는 다음 과 같 습 니 다.
RDD
와 DataFrame
의 비교:RDD
운행 하기 시작 하면 속 도 는 집행 언어 에 따라 다르다. java/scala ==> jvm
python ==> python runtime
DataFrame
운행 하기 시작 하면 실행 언어 가 다 르 지만 운행 속도 가 같다. java/scala/python ==> Logic Plan
홈 페이지 의 예 를 들 어
DataFrame
의 기본 조작 을 알 아 보 자.import org.apache.spark.sql.SparkSession
/**
* DataFrame API
*/
object DataFrameApp {
def main(args: Array[String]): Unit = {
val spark = SparkSession
.builder()
.appName("DataFrameApp")
.master("local[2]")
.getOrCreate();
// json dataframe
val peopleDF = spark.read.json("C:\\Users\\Administrator\\IdeaProjects\\SparkSQLProject\\spark-warehouse\\people.json");
// Prints the schema to the console in a nice tree format.
peopleDF.printSchema();
// 20
peopleDF.show();
// : select name from table
peopleDF.select("name").show();
// , : select name, age+10 as age2 from table
peopleDF.select(peopleDF.col("name"), (peopleDF.col("age") + 10).as("age2")).show();
// : select * from table where age>19
peopleDF.filter(peopleDF.col("age") > 19).show();
// , : select age,count(1) from table group by age
peopleDF.groupBy("age").count().show();
spark.stop();
}
}
이 내용에 흥미가 있습니까?
현재 기사가 여러분의 문제를 해결하지 못하는 경우 AI 엔진은 머신러닝 분석(스마트 모델이 방금 만들어져 부정확한 경우가 있을 수 있음)을 통해 가장 유사한 기사를 추천합니다:
다양한 언어의 JSONJSON은 Javascript 표기법을 사용하여 데이터 구조를 레이아웃하는 데이터 형식입니다. 그러나 Javascript가 코드에서 이러한 구조를 나타낼 수 있는 유일한 언어는 아닙니다. 저는 일반적으로 '객체'{}...
텍스트를 자유롭게 공유하거나 복사할 수 있습니다.하지만 이 문서의 URL은 참조 URL로 남겨 두십시오.
CC BY-SA 2.5, CC BY-SA 3.0 및 CC BY-SA 4.0에 따라 라이센스가 부여됩니다.