spark는hadoop에서 파일 이름을 가져오는 기능을 실현합니다

1922 단어 hadoopspark
hadoop1 버전에서는 파일 이름을 얻는 기능을 제공합니다. 맵 단계에서 줄마다 어떤 파일에 속하는지 기록할 수 있습니다. 이 파일 이름을 얻을 수 있습니다. 코드는 다음과 같습니다.
//     
InputSplit inputSplit=(InputSplit)context.getInputSplit();
String filename=((FileSplit)inputSplit).getPath().getName();

이것은 Hadoop1 버전에서 제공하는 방법입니다.
spark에서도 이 기능을 실현할 수 있다. 사용하는 방식은 로컬 테스트 코드이고 spark는 로컬에서 실행된다. 코드는 다음과 같다.
object Mytest3 {
  def main(args: Array[String]): Unit = {
    val conf=new SparkConf
    conf.setMaster("local[2]").setAppName("mytest")
    System.setProperty("hadoop.home.dir","E:\\hadoop2\\hadoop-2.6.0")
    val sc=new SparkContext(conf)
        
    val fileRDD=sc.hadoopFile[LongWritable, Text, TextInputFormat]("C:\\sparksplit\\*")
    
    val hadoopRdd = fileRDD.asInstanceOf[HadoopRDD[LongWritable, Text]]
    
    val fileAndLine = hadoopRdd.mapPartitionsWithInputSplit((inputSplit:InputSplit,iterator:Iterator[(LongWritable, Text)]) =>{
      val file = inputSplit.asInstanceOf[FileSplit]
      iterator.map(x=>{file.getPath.toString()+"\t"+x._2})
    } 
    )
    
    fileAndLine.foreach(println)
  }
}

여기서 주의해야 할 것은 도입된jar 패키지는 틀리지 말고 틀리면 방법이 틀릴 수 있다는 것이다.도입된jar 패키지는 다음과 같습니다:
import cn.wjpt.AuditLogManager
import org.apache.spark.SparkContext
import org.apache.spark.SparkContext._
import org.apache.spark.SparkConf
import org.apache.hadoop.mapred.lib.MultipleTextOutputFormat
import org.apache.hadoop.io.Text
import org.apache.hadoop.io.LongWritable
import org.apache.spark.rdd.HadoopRDD
import org.apache.hadoop.mapred.InputSplit
import org.apache.hadoop.mapred.FileSplit
import org.apache.hadoop.mapred.TextInputFormat

이 정도면 됐어.

좋은 웹페이지 즐겨찾기