Spark 작업 - 동작 작업(둘)

집합 표량 행동 조작

스토리지 작업 4

스토리지 작업

saveAsTextFile(path: String): Unit

saveAsTextFile(path: String, codec: Class[_ <: compresssioncodec=""unit="">

RDD를 텍스트 파일 형식으로 파일 시스템에 저장하고, 코드c 매개 변수는 압축 형식을 지정하는 데 사용됩니다

saveAsSequenceFile(path: String, codec: Option[Class[_ <: compressioncodec=""none=""unit="">

RDD를 Sequence 파일 형식으로 HDFS 파일 시스템에 저장

saveAsObjectFile(path: String): Unit

RDD 요소를 객체로 시퀀스화하여 파일 시스템에 저장합니다.

scala> var rdd = sc.makeRDD(1 to 10, 2)
rdd: org.apache.spark.rdd.RDD[Int] = ParallelCollectionRDD[82] at makeRDD at :24

//       ，       2，          
scala> rdd.saveAsTextFile("/Users/lyf/Desktop/output")

saveAsHadoopFile(F <: outputformat=""v=""string=""fm:=""classtag=""unit="">

saveAsHadoopFile(F <: outputformat=""v=""string=""codec:=""class=""compressioncodec=""fm:=""classtag=""unit="">

saveAsHadoopFile(path: String, keyClass: Class[_], valueClass: Class[_], outputFormatClass: Class[_ <: outputformat=""_=""codec:=""class=""compressioncodec=""unit="">

saveAsHadoopFile(path: String, keyClass: Class[_], valueClass: Class[_], outputFormatClass: Class[_ <: outputformat=""_=""conf:=""jobconf="……,"codec:=""option=""compressioncodec=""unit="">

saveAsHadoopFile 작업은 RDD를 HDFS에 저장하고 오래된 Hadoop API를 지원하며 outputKeyClass, outputValueClass 및 압축 형식을 지정할 수 있습니다

saveAsHadoopDataset(conf: JobConf): Unit

saveAsHadoopDataset은 HDFS를 제외한 다른 저장소, 예를 들어 Hbase에 RDD를 저장합니다.JobConf에서는 일반적으로 출력 경로, Key 유형, Value 유형, 출력 형식, 압축 관련 매개변수 등 5개의 매개변수를 설정해야 합니다.

saveAsNewAPIHadoopFile[F <: outputformat=""v=""string=""unit="">

saveAsNewAPIHadoopFile(path: String, keyClass: Class[_], valueClass: Class[_], outputFormatClass: Class[_ <: outputformat=""_=""conf:=""configuration="self.context.hadoopConfiguration):"unit="">

새 Hadoop API는 saveAsHadoopFile과 함께 제공됩니다.

saveAsNewAPIHadoopDataset(conf: Configutation): Unit

새로운 Hadoop API, SaveAsHadoopDataset 기능

참조:
[1] 곽경첨.도해스파크: 핵심 기술과 사례 실전[M].북경:전자공업출판사,2017.

Spark 작업 - 동작 작업(둘)

좋은 웹페이지 즐겨찾기