Cloud Dataproc의 Scala에서 Spark 작업 생성 및 실행!!!
4953 단어 scalagooglecloudsparkbigdata
Google Cloud를 사용하여 Scala에서 수행된 Spark 작업을 쉽게 실행하는 예제가 포함된 간단한 가이드입니다. :)
Java 8 JDK 또는 Java 11 JDK 설치
운영 체제에 Java가 설치되어 있는지 확인하려면 아래 명령을 사용하십시오.
java -version자바 버전에 따라 이 명령어는 변경될 수 있습니다... :)
Java가 아직 설치되지 않은 경우 Oracle Java 8, Oracle Java 11 또는 AdoptOpenJDK 8/11 링크에서 설치하십시오. JDK 호환성 링크의 지침에 따라 JDK와 Scala 버전 간의 호환성을 항상 확인합니다.
스칼라 설치
sudo apt install scalabrew update
brew install scala
Scala 설치 지침에 표시된 대로 SCALA_HOME 환경 변수를 설정하고 경로에 추가합니다. 예시:
export SCALA_HOME=/usr/local/share/scala export PATH=$PATH:$SCALA_HOME/Windows를 사용하는 경우:
%SCALA_HOME%c:\Progra~1\Scala
%PATH%%PATH%;%SCALA_HOME%\bin
스칼라를 시작합니다.
$ scala
Welcome to Scala 2.11.12 (OpenJDK 64-Bit Server VM, Java 11.0.9.1).
Type in expressions for evaluation. Or try :help.
설치에 따라 Scala 및 Java 버전이 변경될 수 있습니다...
HelloWorld 코드를 복사하여 Scala REPL에 붙여넣기(터미널을 통한 대화형 모드)
object HelloWorld {
def main(args: Array[String]): Unit = {
println(“Hello, world!”)
}
HelloWorld.scala를 저장하고 REPL을 종료합니다.
scala> :save HelloWorld.scala
scala> :q
다음으로 컴파일: scalac.
$ scalac HelloWorld.scala컴파일된 .class 파일을 나열합니다.
$ ls -al
HelloWorld*.class
HelloWorld$.class
HelloWorld.class
스칼라 코드 복사
집에 주문하자!
mkdir hello
$ cd hello
$ echo \
'object HelloWorld {def main(args: Array[String]) = println("Hello, world!")}' > \
HelloWorld.scala
sbt.build 구성 파일을 생성하여 artifactName(아래에서 생성할 jar 파일의 이름)을 "HelloWorld.jar"로 정의합니다.
echo \
'artifactName := { (sv: ScalaVersion, module: ModuleID, artifact: Artifact) =>
"HelloWorld.jar" }' > \
build.sbt
SBT(Scala Package and Dependency Manager)를 시작하고 코드를 실행합니다.
$ sbtSBT가 아직 설치되지 않은 경우 다운로드 및 설치됩니다. 시간이 걸릴 수 있습니다…
sbt:hello> run
[info] running HelloWorld
Hello, world!
[success] Total time: 0 s, completed 4 de fev de 2021 00:20:26
프로젝트를 패키징하여 .jar 파일 생성
sbt:hello> package
[success] Total time: 0 s, completed 4 de fev de 2021 00:20:35
sbt:hello> exit
[info] shutting down sbt server
컴파일된 파일은 "./target/scala-version_xpto/HelloWorld.jar"에 있습니다.
구글 클라우드 플랫폼(GCP)
Google 클라우드 서비스를 사용하려면 결제를 활성화해야 합니다. 이 예에서는 클라우드 스토리지를 사용하여 Scala 코드와 함께 jar 파일을 저장하고 Cloud Dataproc을 사용하여 사용된 Spark 파일을 실행합니다.
두 서비스 모두 무료 사용료가 있으며 할당량이 끝나면 계정에 연결된 신용 카드로 요금이 청구됩니다!
Jar 파일을 클라우드 저장소의 버킷에 복사합니다.

jar 파일이 있는 버킷 링크를 사용하여 Cloud Dataproc에서 새 작업을 제출합니다.

필드 참조:
제출하기 전에 Spark 클러스터가 생성되었는지 확인하세요 :)
양식을 작성한 후 "제출"을 선택하면 작업이 실행되고 작업 목록에 나타납니다.

작업 ID를 선택하면 해당 출력을 볼 수 있습니다.

이것은 Google 환경의 Scala에서 수행된 Spark 루틴을 배포하는 간단한 예였습니다. ssh를 통해 액세스하는 spark-shell을 통해 Spark 클러스터와 상호 작용할 가능성이 있으며 양식을 통해 제출하는 대신 Google을 사용할 수 있습니다. CLI 클라우드.
참조:
https://cloud.google.com/dataproc/docs/tutorials/spark-scala

Medium에서 저를 팔로우하세요 :)
Reference
이 문제에 관하여(Cloud Dataproc의 Scala에서 Spark 작업 생성 및 실행!!!), 우리는 이곳에서 더 많은 자료를 발견하고 링크를 클릭하여 보았다 https://dev.to/jlgjosue/creating-and-running-spark-jobs-in-scala-on-cloud-dataproc--1f7n텍스트를 자유롭게 공유하거나 복사할 수 있습니다.하지만 이 문서의 URL은 참조 URL로 남겨 두십시오.
우수한 개발자 콘텐츠 발견에 전념
(Collection and Share based on the CC Protocol.)