Spark를 EMR로 사용하고 싶었습니다.
h tp // w w. 아 t r t. 이. jp / ai t / archi c0s / 1609/27 / 네 ws018. HTML
CSV 만들기
csv를 ruby로 만듭니다. s3에 업로드
sbt 프로젝트 만들기
build.sbt
name := "SparkExampleApp"
version := "1.0"
scalaVersion := "2.11.7"
libraryDependencies ++= Seq(
"org.apache.spark" %% "spark-core" % "2.1.0",
"org.apache.spark" %% "spark-mllib" % "2.1.0",
"org.apache.spark" %% "spark-sql" % "2.1.0",
"com.databricks" %% "spark-csv" % "1.4.0"
)
소스 코드는 다음을 원형 복사
사용하는 spark의 spark-defaults.conf에 다음을 추가
spark-defaults.conf
spark.jars.packages com.amazonaws:aws-java-sdk:1.7.4,org.apache.hadoop:hadoop-aws:2.7.3
s3에 완전히 액세스할 수 있는 사용자 만들기
(약간 정책 주위의 UI가 다르지만 조심해)
액세스 키와 비밀 키를 복사하십시오.
방금 SparkExampleApp.scala에 액세스 키와 비밀 키를 붙여넣기
실행
로컬로 실행
./bin/spark-submit --class SparkExampleApp --master local {自分の作成したjarファイルのpath} {S3に配置したdata.csvのパス) {S3の保存先のパス}
아래와 같은 느낌이 된다
./bin/spark-submit --class SparkExampleApp --master local ~/Desktop/SparkExampleApp/target/scala-2.11/spark-sample-project_2.11-1.0.jar s3n://my-bucket-name/data.csv s3n://my-bucket-name/output.csv
기계 성능이 부족하면 tmp 파일이 s3에 업로드됩니다.
EMR에서는 제대로 움직이기 때문에 나머지는 첫 기사대로 설정하면 OK
Reference
이 문제에 관하여(Spark를 EMR로 사용하고 싶었습니다.), 우리는 이곳에서 더 많은 자료를 발견하고 링크를 클릭하여 보았다 https://qiita.com/kazz_ogawa/items/68a3b84c84d8e1603415텍스트를 자유롭게 공유하거나 복사할 수 있습니다.하지만 이 문서의 URL은 참조 URL로 남겨 두십시오.
우수한 개발자 콘텐츠 발견에 전념 (Collection and Share based on the CC Protocol.)