DataFrame 과 SparkSql 수치 오류
2.DataFrame 에서 찾 아 낸 데 이 터 는 dataframe 데이터 세트 를 되 돌려 줍 니 다.
3.DataFrame 은 Action 의 연산 자 를 만 나 야만 실행 할 수 있 습 니 다.
4.SparkSql 에서 찾 아 낸 데 이 터 는 dataframe 데이터 세트 를 되 돌려 줍 니 다.
원시 데이터
scala> val parquetDF = sqlContext.read.parquet("hdfs://hadoop14:9000/yuhui/parquet/part-r-00004.gz.parquet")
df: org.apache.spark.sql.DataFrame = [timestamp: string, appkey: string, app_version: string, channel: string, lang: string, os_type: string, os_version: string, display: string, device_type: string, mac: string, network: string, nettype: string, suuid: string, register_days: int, country: string, area: string, province: string, city: string, event: string, use_interval_cat: string, use_duration_cat: string, use_interval: bigint, use_duration: bigint, os_upgrade_from: string, app_upgrade_from: string, page_name: string, event_name: string, error_type: string]
코드
package DataFrame
import org.apache.spark.sql.SQLContext
import org.apache.spark.{SparkConf, SparkContext}
/**
* Created by yuhui on 2016/6/14.
*/
object DataFrameTest {
def main(args: Array[String]) {
DataFrameInto()
}
def DataFrameInto() {
val conf = new SparkConf()
val sc = new SparkContext(conf)
val sqlContext = new SQLContext(sc)
val df = sqlContext.read.parquet("hdfs://hadoop14:9000/yuhui/parquet")
//df.map(line => printinfo(line.getString(0)))
//df.foreach(line => printinfo(line.getString(0)+" , "+line.getString(14)+" , "+line.getString(15)))
//df.select("timestamp","country","area").foreach(line=>printinfo(line.toString))
df.registerTempTable("infotable")
sqlContext.sql("SELECT timestamp , country , area from infotable").foreach(line=>printinfo(line.toString))
}
def printinfo(msg: String) {println("printinfo -->" + msg) }
}
코드 분석1、df.map(line => printinfo(line.getString(0)))
이 코드 는 printinfo()함 수 를 실행 할 수 없습니다.map 연산 자 만 있 고 Action 연산 자가 없 기 때 문 입 니 다.
2、df.foreach(line => printinfo(line.getString(0)+" , "+line.getString(14)+" , "+line.getString(15)))
Spark 의 Action 연산 자 를 통 해 데 이 터 를 받 아 조작 한 결 과 는 다음 과 같 습 니 다.
3、df.select("timestamp","country","area").foreach(line=>printinfo(line.toString))
DataFrame 의 API 를 통 해 조작 한 다음 Spark 의 Action 연산 자 를 통 해 인쇄 한 결과 다음 과 같이 실 행 됩 니 다.
4、sqlContext.sql("SELECT timestamp , country , area from infotable").foreach(line=>printinfo(line.toString))
실행 결 과 는 다음 과 같 습 니 다.
이상 의 이 평론 은 DataFrame 과 SparkSql 의 수치 오류 가 바로 편집장 이 여러분 에 게 공유 한 모든 내용 입 니 다.여러분 에 게 참고 가 되 고 저희 도 많이 응원 해 주시 기 바 랍 니 다.
이 내용에 흥미가 있습니까?
현재 기사가 여러분의 문제를 해결하지 못하는 경우 AI 엔진은 머신러닝 분석(스마트 모델이 방금 만들어져 부정확한 경우가 있을 수 있음)을 통해 가장 유사한 기사를 추천합니다:
DataFrame 참조Dataframe의 데이터는 행과 열을 지정하는 것으로 참조할 수 있다. 참조 방법에는 여러 가지가 있으며 여기서는 loc과 iloc을 다룹니다. 주로, loc는 이름에 의한 참조, iloc는 번호에 의한 참조를 취...
텍스트를 자유롭게 공유하거나 복사할 수 있습니다.하지만 이 문서의 URL은 참조 URL로 남겨 두십시오.
CC BY-SA 2.5, CC BY-SA 3.0 및 CC BY-SA 4.0에 따라 라이센스가 부여됩니다.