Spark에서 자주 묻는 질문

5226 단어 Spark
  • Spark local mode 보고서 Input path does not exist: hdfs://
  • Exception in thread “main” org.apache.hadoop.mapred.InvalidInputException: Input path does not exist: hdfs://argo/data/resys/mingliang/shop_diary/sparktest/WordCount/input.dat at org.apache.hadoop.mapred.FileInputFormat.singleThreadedListStatus(FileInputFormat.java:285) at org.apache.hadoop.mapred.FileInputFormat.listStatus(FileInputFormat.java:228) at org.apache.hadoop.mapred.FileInputFormat.getSplits(FileInputFormat.java:313) at org.apache.spark.rdd.HadoopRDD.getPartitions(HadoopRDD.scala:199)
    outputfile=/data/resys/mingliang/shop_diary/sparktest/WordCount/output
    rm -rf $outputfile
    
    /data/resys/var/spark-1.6.0-bin-hadoop2.6/bin/spark-submit \
      --class SparkTest.WordCount \
      --master "local" \
      --deploy-mode "client" \
      spark-wordcount-in-scala.jar \
        "local[2]" \
      /data/resys/mingliang/shop_diary/sparktest/WordCount/input.dat \
      $outputfile

    http://stackoverflow.com/questions/27299923/how-to-load-local-file-in-sc-textfile-instead-of-hdfs
  • More than one scala library found in the build path(...org.scala-lang.scala-library 2.11.7.v...) 솔루션: 프로젝트 속성 ->scala compiler-> Use Project Settings 및 Latest 2.10 bundle(dynamic) 포인트를 선택하면 더 이상 틀리지 않습니다
  • JAR creation failed. See details for additional information 오른쪽 버튼 항목에서 "새로 고침"을 클릭하면 OK
  • java.lang.NoSuchMethodError: scala.runtime.ObjectRef.create(Ljava/lang/Object;)Lscala/runtime/ObjectRef; 이 문제는 로컬 컴파일할 때 사용하는 scala 버전과 Spark 집단에서 사용하는 Scala 버전이 일치하지 않기 때문에 Spark Job 모니터링 페이지의 Environment 옵션에서 해당 버전 번호를 볼 수 있습니다
  • 일지 org.apache.spark.shuffle.FetchFailedException은 RDD를 Repartition 조작을 시도하여 Repartition 개수를 늘리고 각partition의size를 줄여서 shuffle 시 메모리 오류를 보고하지 않도록 할 수 있다
  • 컴파일할 때'can not resolve symbol'을 표시하는 경우 일반적으로 import 관련 패키지가 없습니다.이 문제는 나를 곤경에 빠뜨렸다. 한참을 찾았는데 이전에 동료가 sbtbuild 코드를 사용했는데 마벤트build로 바꿨는데 결과가 계속 터져서 import에 가입한 후에 문제가 없었다.그런데 이상하게도 왜 sbtbuild을 사용할 때 관련 가방을 가져올 필요가 없습니까?
  • java.lang.NoSuchMethodError: scala.Predef$.ArrowAssoc(Ljava/lang/Object;)Ljava/lang/Object 인터넷에서 말하는 것은 일반적으로 포장할 때의spark/scala 버전이 온라인과 일치하지 않아서 일어난 것이다.그런데 내가 만난 것은:val rdd = xx.map(col->1) 이 결과 형식은 실제적으로 Tuple이지만 온라인spark는 지원하지 않는 것 같습니다.표준 Tuple로 변경하면 됩니다.val rdd = xx.map((col -> 1))
  • JAR will be empty - no content was marked for inclusion! 아이디어를 사용했습니다. mvn 패키지에서jar 패키지가 생성되었지만 클라스 파일이 포함되지 않았습니다. 해결 방법은 매번 [Build]->[Make Project]를 먼저 사용한 다음에 mvn 패키지를 실행하면 완전한jar 패키지를 생성할 수 있습니다.
  • java.lang.NoSuchMethodError: scala.runtime.DoubleRef.create(D)Lscala/runtime/DoubleRef
  • var total:Double = 0
                for (i 1 until arr.length) {
                    val Array(topic, freqStr) = arr(i).split(":")
                    val freq = freqStr.toDouble
                    total += freq * freq
                }

    var total: Double = 0 버그 해결 방법은 다음과 같습니다.
    The library requires Scala 2.11, not 2.10, and Spark 2.0, not 1.6.2, as you can see from
    .minor.version>2.11.minor.version>
    .complete.version>${scala.minor.version}.8.complete.version>
    .version>2.0.0.version>

    https://stackoverflow.com/questions/39775517/sryza-spark-timeseries-nosuchmethoderror-scala-runtime-intref-createilscala

    좋은 웹페이지 즐겨찾기