Spark를 EMR로 사용하고 싶었습니다.

하기 사이트를 참고, 라고 하기보다, 거의 그대로 실시
h tp // w w. 아 t r t. 이. jp / ai t / archi c0s / 1609/27 / 네 ws018. HTML

CSV 만들기



csv를 ruby로 만듭니다. s3에 업로드

sbt 프로젝트 만들기



build.sbt

name := "SparkExampleApp"

version := "1.0"

scalaVersion := "2.11.7"

libraryDependencies ++= Seq(
  "org.apache.spark" %% "spark-core" % "2.1.0",
  "org.apache.spark" %% "spark-mllib" % "2.1.0",
  "org.apache.spark" %% "spark-sql" % "2.1.0",
  "com.databricks" %% "spark-csv" % "1.4.0"
)


소스 코드는 다음을 원형 복사

사용하는 spark의 spark-defaults.conf에 다음을 추가

spark-defaults.conf
spark.jars.packages  com.amazonaws:aws-java-sdk:1.7.4,org.apache.hadoop:hadoop-aws:2.7.3

s3에 완전히 액세스할 수 있는 사용자 만들기



(약간 정책 주위의 UI가 다르지만 조심해)

액세스 키와 비밀 키를 복사하십시오.

방금 SparkExampleApp.scala에 액세스 키와 비밀 키를 붙여넣기

실행



로컬로 실행
./bin/spark-submit --class SparkExampleApp --master local {自分の作成したjarファイルのpath} {S3に配置したdata.csvのパス) {S3の保存先のパス}

아래와 같은 느낌이 된다
./bin/spark-submit --class SparkExampleApp --master local ~/Desktop/SparkExampleApp/target/scala-2.11/spark-sample-project_2.11-1.0.jar s3n://my-bucket-name/data.csv s3n://my-bucket-name/output.csv

기계 성능이 부족하면 tmp 파일이 s3에 업로드됩니다.

EMR에서는 제대로 움직이기 때문에 나머지는 첫 기사대로 설정하면 OK

좋은 웹페이지 즐겨찾기