CentOS 7 + Hadoop 3.2.0 + Spark 2.4.3 구축

3848 단어 빅 데이터
건립 준비
우선 스파크 패 키 지 를 다운로드 하고, 이전에 Hadoop 을 만 들 었 다 면 해당 버 전 을 선택해 야 합 니 다.저 는 Hadoop 3.2.0 의사 분포 식 환경 을 만 들 었 기 때문에 spark 가방 을 다운로드 할 때 Pre - build for Apache Hadoop 2.7 and later 를 선택해 야 합 니 다.
/ usr / local 에서 spark 폴 더 를 만 들 고 방금 다운로드 한 가방 을 압축 해제 합 니 다.
[root@DW1 spark]# tar -zxvf spark-2.4.3-bin-hadoop2.7.tgz 
[root@DW1 spark]# ls
spark-2.4.3-bin-hadoop2.7  spark-2.4.3-bin-hadoop2.7.tgz

그리고 scala 설치 패키지 (선택 가능) 를 다운로드 합 니 다. 저 는 scala - 2.11.6 버 전 을 선 택 했 습 니 다.Spark 는 스칼라 언어 로 이 루어 졌 지만 구축 과정 에서 스칼라 패 키 지 를 수 동 으로 설치 할 필요 가 없다.이곳 에서 설 치 를 선택 한 것 은 후속 학습 과 사용 의 편 의 를 위해 서 이다.마찬가지 로 / usr / local 에서 scala 폴 더 를 만 든 다음 압축 해제 패 키 지 를 만 듭 니 다.
[root@DW1 scala]#  tar -zxf scala-2.11.6.tgz
[root@DW1 scala]# ls
scala-2.11.6  scala-2.11.6.tgz

환경 변수 수정
수정 / etc / profile, 각각 Scala 와 spark 의 환경 변 수 를 추가 합 니 다.
[root@DW1 spark]# vi /etc/profile
#       
#scala
export SCALA=/usr/loacl/scala/scala-2.11.6
export PATH=$PATH:$SCALA_HOM/bin:$SCALA_HOM/sbin
      $SCALA_HOM/sbin     ,              ,       

#spark
export SPARK_HOME=/usr/loacl/spark/spark-2.4.3-bin-hadoop2.7
export PATH=$PATH:$SPARK_HOME/bin

[root@DW1 spark]# source /etc/profile

설정 경로 에 오류 가 있 는 지 확인 하기 위해 서 명령 을 사용 할 수 있 습 니 다. 예 를 들 어:
[root@DW1 ~]# cd $SPARK_HOME
[root@DW1 spark-2.4.3-bin-hadoop2.7]# 

[root@DW2 ]# echo $SPARK_HOME
/usr/local/spark/spark-2.4.3-bin-hadoop2.7
     ,         ,         

환경 설정 이 완료 되면 Scala 가 설치 되 어 다음 명령 으로 검증 할 수 있 습 니 다.
[root@DW1 scala]# scala -version
Scala code runner version 2.11.6 -- Copyright 2002-2013, LAMP/EPFL

해당 프로필 수정
$SPARKHOME / conf / 아래 spark - env. sh. template 이름 을 spark - env. sh 로 바 꾸 고 다음 내용 을 추가 합 니 다.
export JAVA_HOME=/usr/lib/jvm/java-1.8.0-openjdk-1.8.0.222.b10-0.el7_6.x86_64
export HADOOP_HOME=/usr/local/hadoop/hadoop-3.2.0
export HADOOP_CONF_DIR=//usr/local/hadoop/hadoop-3.2.0/etc/hadoop
#            
export SPARK_MASTER_HOST=DW1
export SPARK_MASTER_PORT=7077
#       
export SPARK_WORKER_MEMORY=1g
export SPARK_WORKER_CORES=1

slaves. template 를 slaves 로 변경 하고 다음 내용 을 추가 합 니 다.
#      localhost        
DW2
DW3

SPAPK 수정HOME / sbin 아래 start - all. sh 와 stop - all. sh 의 파일 이름: 클 러 스 터 에 도 Hadoop 이 설치 되 어 있 기 때문에 HADOOP 가 설정 되 어 있 습 니 다.HOME 환경 변 수 는 공교롭게도 hadop 시작 과 일시 정지 클 러 스 터 의 스 크 립 트 도 start - all. sh 와 stop - all. sh 라 는 두 이름 입 니 다.이름 을 바 꾸 지 않 으 면 운영 체제 가 hadop 을 조작 하 는 지 spark 를 조작 하 는 지 식별 할 수 없 기 때문에 충돌 이 발생 할 수 있다.
[root@DW1 conf]# cd ../sbin
[root@DW1 sbin]# mv start-all.sh start-spark-all.sh
[root@DW1 sbin]# mv stop-all.sh stop-spark-all.sh

앞의 환경 변 수 를 기억 하 세 요. 저 는 $SCALA 를 선택 하 겠 습 니 다.HOM / sbin 도 들 어가 나 요?그것 은 임의의 위치 에서 start - spark - all. sh 와 stop - spark - all. sh 로 spark 를 닫 기 위해 서 입 니 다.
이름 을 바 꾸 지 않 고 이 경 로 를 설정 하지 않 으 면 spark 를 켜 거나 닫 을 때마다 cd 만 $SCALA 에 들 어 갈 수 있 습 니 다.HOM / sbin 경로 에서 수 동 sh start - all. sh 와 stop - all. sh 두 스 크 립 트 는 매우 번 거 롭 습 니 다.
spark 가방 을 노드 에서 나 누 어 줍 니 다.
[root@DW1 local]# scp -r spark DW2:/usr/local
[root@DW1 local]# scp -r spark DW3:/usr/local

또한 각 노드 의 환경 변수 도 수정 해 야 한 다 는 것 을 잊 지 마 세 요.
시작 클 러 스 터
hadop 클 러 스 터 먼저 오픈:
[root@DW1 ~]# start-all.sh
[root@DW1 ~]# jps
9429 SecondaryNameNode
9670 ResourceManager
9165 NameNode
10045 Jps

spark 클 러 스 터 재 오픈:
[root@DW1 ~]# start-spark-all.sh
#   
[root@DW1 ~]# jps
9429 SecondaryNameNode
10069 Master
9670 ResourceManager
10188 Jps
9165 NameNode

#    
[root@DW2 ~]# jps
5521 DataNode
5809 Jps
5764 Worker
5629 NodeManager

비교 해 보면 메 인 노드 에 master 가 하나 더 있 고 노드 에서 worker 가 하나 더 있 는 것 을 발견 했다.여기까지 spark 의 환경 이 구축 되 었 습 니 다.

좋은 웹페이지 즐겨찾기