Spark를 EMR로 사용하고 싶었습니다.

하기 사이트를 참고, 라고 하기보다, 거의 그대로 실시
h tp // w w. 아 t r t. 이. jp / ai t / archi c0s / 1609/27 / 네 ws018. HTML

CSV 만들기

csv를 ruby로 만듭니다. s3에 업로드

sbt 프로젝트 만들기

build.sbt


name := "SparkExampleApp"

version := "1.0"

scalaVersion := "2.11.7"

libraryDependencies ++= Seq(
  "org.apache.spark" %% "spark-core" % "2.1.0",
  "org.apache.spark" %% "spark-mllib" % "2.1.0",
  "org.apache.spark" %% "spark-sql" % "2.1.0",
  "com.databricks" %% "spark-csv" % "1.4.0"
)

소스 코드는 다음을 원형 복사

사용하는 spark의 spark-defaults.conf에 다음을 추가

spark-defaults.conf

spark.jars.packages  com.amazonaws:aws-java-sdk:1.7.4,org.apache.hadoop:hadoop-aws:2.7.3

s3에 완전히 액세스할 수 있는 사용자 만들기

(약간 정책 주위의 UI가 다르지만 조심해)

액세스 키와 비밀 키를 복사하십시오.

방금 SparkExampleApp.scala에 액세스 키와 비밀 키를 붙여넣기

실행

로컬로 실행

./bin/spark-submit --class SparkExampleApp --master local ｛自分の作成したjarファイルのpath｝ ｛S3に配置したdata.csvのパス） ｛S3の保存先のパス｝

아래와 같은 느낌이 된다

./bin/spark-submit --class SparkExampleApp --master local ~/Desktop/SparkExampleApp/target/scala-2.11/spark-sample-project_2.11-1.0.jar s3n://my-bucket-name/data.csv s3n://my-bucket-name/output.csv

기계 성능이 부족하면 tmp 파일이 s3에 업로드됩니다.

EMR에서는 제대로 움직이기 때문에 나머지는 첫 기사대로 설정하면 OK

Reference

이 문제에 관하여(Spark를 EMR로 사용하고 싶었습니다.), 우리는 이곳에서 더 많은 자료를 발견하고 링크를 클릭하여 보았다 https://qiita.com/kazz_ogawa/items/68a3b84c84d8e1603415

텍스트를 자유롭게 공유하거나 복사할 수 있습니다.하지만 이 문서의 URL은 참조 URL로 남겨 두십시오.

우수한 개발자 콘텐츠 발견에 전념 (Collection and Share based on the CC Protocol.)

좋은 웹페이지 즐겨찾기

개발자 우수 사이트 수집

개발자가 알아야 할 필수 사이트 100선 추천 우리는 당신을 위해 100개의 자주 사용하는 개발자 학습 사이트를 정리했습니다