4
집합 표량 행동 조작4
스토리지 작업 4 스토리지 작업
saveAsTextFile(path: String): Unit saveAsTextFile(path: String, codec: Class[_ <: compresssioncodec=""unit=""> RDD를 텍스트 파일 형식으로 파일 시스템에 저장하고, 코드c 매개 변수는 압축 형식을 지정하는 데 사용됩니다
saveAsSequenceFile(path: String, codec: Option[Class[_ <: compressioncodec=""none=""unit=""> RDD를 Sequence 파일 형식으로 HDFS 파일 시스템에 저장
saveAsObjectFile(path: String): Unit RDD 요소를 객체로 시퀀스화하여 파일 시스템에 저장합니다.
scala> var rdd = sc.makeRDD(1 to 10, 2)
rdd: org.apache.spark.rdd.RDD[Int] = ParallelCollectionRDD[82] at makeRDD at :24
// , 2,
scala> rdd.saveAsTextFile("/Users/lyf/Desktop/output")
saveAsHadoopFile(F <: outputformat=""v=""string=""fm:=""classtag=""unit=""> saveAsHadoopFile(F <: outputformat=""v=""string=""codec:=""class=""compressioncodec=""fm:=""classtag=""unit=""> saveAsHadoopFile(path: String, keyClass: Class[_], valueClass: Class[_], outputFormatClass: Class[_ <: outputformat=""_=""codec:=""class=""compressioncodec=""unit=""> saveAsHadoopFile(path: String, keyClass: Class[_], valueClass: Class[_], outputFormatClass: Class[_ <: outputformat=""_=""conf:=""jobconf="……,"codec:=""option=""compressioncodec=""unit=""> saveAsHadoopFile 작업은 RDD를 HDFS에 저장하고 오래된 Hadoop API를 지원하며 outputKeyClass, outputValueClass 및 압축 형식을 지정할 수 있습니다
saveAsHadoopDataset(conf: JobConf): Unit saveAsHadoopDataset은 HDFS를 제외한 다른 저장소, 예를 들어 Hbase에 RDD를 저장합니다.JobConf에서는 일반적으로 출력 경로, Key 유형, Value 유형, 출력 형식, 압축 관련 매개변수 등 5개의 매개변수를 설정해야 합니다.
saveAsNewAPIHadoopFile[F <: outputformat=""v=""string=""unit=""> saveAsNewAPIHadoopFile(path: String, keyClass: Class[_], valueClass: Class[_], outputFormatClass: Class[_ <: outputformat=""_=""conf:=""configuration="self.context.hadoopConfiguration):"unit=""> 새 Hadoop API는 saveAsHadoopFile과 함께 제공됩니다.
saveAsNewAPIHadoopDataset(conf: Configutation): Unit 새로운 Hadoop API, SaveAsHadoopDataset 기능
참조:
[1] 곽경첨.도해스파크: 핵심 기술과 사례 실전[M].북경:전자공업출판사,2017.