Spark 입문
불완전 하 다
mr 대신 spark core 를 사용 하여 오프라인 계산 을 할 수 밖 에 없 기 때문에 데이터 저장 은 hdfs 에 의존 해 야 합 니 다.
Spark+Hadoop 의 조합 이 야 말로 미래 빅 데이터 분야 에서 가장 핫 한 조합 이자 가장 전망 적 인 조합 입 니 다!
4.Spark 의 특징
스피드
원 스 톱 솔 루 션
JVM 의 메모리 오 버 헤드 가 너무 커서 1G 의 데 이 터 는 보통 5G 의 메모 리 를 소모 해 야 합 니 다(Project Tungsten 은 이 문 제 를 해결 하려 고 노력 하고 있 습 니 다)
서로 다른 spark app 사이 에 효과 적 인 공유 메모리 메커니즘 이 부족 합 니 다.(Project Tachyon 은 분포 식 메모리 관 리 를 도입 하려 고 합 니 다.이렇게 서로 다른 spark app 은 캐 시 데 이 터 를 공유 할 수 있 습 니 다)
6. Spark vs MR
6.1 mr 의 한계 성
추상 적 인 차원 이 낮 아서 수 동 으로 코드 를 작성 해 야 하기 때문에 사용 하기 어렵다
두 가지 조작 만 제공 하고 맵 과 Reduce 는 표 현 력 이 부족 합 니 다.
지연 이 높 고 Batch 데이터 처리 만 적용 되 며 상호작용 데이터 처리 에 대한 실시 간 데이터 처리 지원 이 부족 합 니 다.
7.스파크 버 전
패키지 spark-2.2.0-bin-hadop 2.7.tgz 설치 준비
tar -zxvf spark-2.2.0-bin-hadoop2.7.tgz -C /opt/
mv spark-2.2.0-bin-hadoop2.7/ spark
spark-env.sh 수정
export JAVA_HOME=/opt/jdk
export SPARK_MASTER_IP=uplooking01
export SPARK_MASTER_PORT=7077
export SPARK_WORKER_CORES=4
export SPARK_WORKER_INSTANCES=1
export SPARK_WORKER_MEMORY=2g
export HADOOP_CONF_DIR=/opt/hadoop/etc/hadoop
환경 변수 설정
# Spark
export SPARK_HOME=/opt/spark
export PATH=$PATH:$SPARK_HOME/bin:$SPARK_HOME/sbin
단일 컴퓨터 spark 시작
start-all-spark.sh
시작 보기http://uplooking01:8080
9.Spark 분산 클 러 스 터 설치
spark-env.sh 설정
[root@uplooking01 /opt/spark/conf]
export JAVA_HOME=/opt/jdk
# master
export SPARK_MASTER_IP=uplooking01
# master
export SPARK_MASTER_PORT=7077
# spark worker cpu
export SPARK_WORKER_CORES=4
# worker
export SPARK_WORKER_INSTANCES=1
#worker 2gb
export SPARK_WORKER_MEMORY=2g
#hadoop
export HADOOP_CONF_DIR=/opt/hadoop/etc/hadoop
슬 레이 브 설정
[root@uplooking01 /opt/spark/conf]
uplooking03
uplooking04
uplooking05
spark 배포
[root@uplooking01 /opt/spark/conf]
scp -r /opt/spark uplooking02:/opt/
scp -r /opt/spark uplooking03:/opt/
scp -r /opt/spark uplooking04:/opt/
scp -r /opt/spark uplooking05:/opt/
uplooking 01 에 설 정 된 환경 변 수 를 나 누 어 줍 니 다.
[root@uplooking01 /]
scp -r /etc/profile uplooking02:/etc/
scp -r /etc/profile uplooking03:/etc/
scp -r /etc/profile uplooking04:/etc/
scp -r /etc/profile uplooking05:/etc/
시작 spark
[root@uplooking01 /]
start-all-spark.sh
10.Spark 고가 용 집단실행 중인 spark 군집 을 먼저 중단 합 니 다.
spark-env.sh 수정
#
#export SPARK_MASTER_IP=uplooking01
#export SPARK_MASTER_PORT=7077
내용 추가
export SPARK_DAEMON_JAVA_OPTS="-Dspark.deploy.recoveryMode=ZOOKEEPER -Dspark.deploy.zookeeper.url=uplooking03:2181,uplooking04:2181,uplooking05:2181 -Dspark.deploy.zookeeper.dir=/spark"
수 정 된[설정 배포]
scp /opt/spark/conf/spark-env.sh uplooking02:/opt/spark/conf
scp /opt/spark/conf/spark-env.sh uplooking03:/opt/spark/conf
scp /opt/spark/conf/spark-env.sh uplooking04:/opt/spark/conf
scp /opt/spark/conf/spark-env.sh uplooking05:/opt/spark/conf
시작 클 러 스 터
[root@uplooking01 /]
start-all-spark.sh
[root@uplooking02 /]
start-master.sh
11.첫 번 째 Spark-Shell 프로그램
spark-shell --master spark://uplooking01:7077
#spark-shell spark-shell application ( , work )
spark-shell --master spark://uplooking01:7077 --total-executor-cores 6 --executor-memory 1g
# worker , worker 1g
sc.textFile("hdfs://ns1/sparktest/").flatMap(_.split(",")).map((_,1)).reduceByKey(_+_).collect
12.스파크 의 캐릭터Master
Spark-Submitter ===> Driver
13.Spark 제출 작업 의 대체 절차
이상 이 바로 본 고의 모든 내용 입 니 다.여러분 의 학습 에 도움 이 되 고 저 희 를 많이 응원 해 주 셨 으 면 좋 겠 습 니 다.
이 내용에 흥미가 있습니까?
현재 기사가 여러분의 문제를 해결하지 못하는 경우 AI 엔진은 머신러닝 분석(스마트 모델이 방금 만들어져 부정확한 경우가 있을 수 있음)을 통해 가장 유사한 기사를 추천합니다:
Spark Streaming의 통계 소켓 단어 수1. socket 단어 수 통계 TCP 소켓의 데이터 서버에서 수신한 텍스트 데이터의 단어 수입니다. 2. maven 설정 3. 프로그래밍 코드 입력 내용 결과 내보내기...
텍스트를 자유롭게 공유하거나 복사할 수 있습니다.하지만 이 문서의 URL은 참조 URL로 남겨 두십시오.
CC BY-SA 2.5, CC BY-SA 3.0 및 CC BY-SA 4.0에 따라 라이센스가 부여됩니다.