Spark 2.1.0 클 러 스 터 배치

2796 단어 spark빅 데이터
1. 홈 페이지 에서 2.1.0 버 전의 Spark, spark - 2.1.0 - bin - hadoop 2.7. tgz 를 다운로드 합 니 다.
2. 모두 클 러 스 터 의 각 노드 를 복사 하여 특정한 디 렉 터 리 에 압축 을 푼다.
3. 마스터 서비스 시작:# ./sbin/start-master.sh
 master 서비스 가 시작 되면 master 의 URL 주 소 를 볼 수 있 습 니 다 (또는 로그 에서 볼 수 있 습 니 다)
spark://Spark01:7077
4. 모든 Worker 를 열 고 Worker 링크 를 master 에 연결 합 니 다.# ./sbin/start-slave.sh 
5. master 의 웹 UI 를 방문 하여 페이지 에서 클 러 스 터 의 woker 와 자원 상황 을 볼 수 있 습 니 다.
http://172.20.13.36:8080/
구체 적 인 worker 의 UI 에 접근 하기
http://172.20.13.43:8081/
6. spark - shell 시작
# ./bin/spark-shell --master spark://Spark01:7077 --executor-memory 10000m --executor-cores 4
매개 변수 설명:
--master spark://Spark01:7077 Master 주소 지정
--executor-memory10000m 모든 worker 사용 가능 한 메모 리 를 10G 로 지정 합 니 다.
--executor-cores 4 
워 커 마다 사용 할 cup 핵 수 를 4 개 로 지정 합 니 다.
주: 셸 을 시작 할 때 자원 을 만 들 지 않 았 습 니 다. 셸 은 모든 자원 을 차지 하고 Job 을 제출 할 때 실행 할 자원 이 없습니다.
7, SparkPi 테스트
# ./bin/run-example SparkPi spark://Spark01:7077
# ./bin/spark-submit --class org.apache.spark.examples.SparkPi --master spark://Spark01:7077 /usr/local/spark-2.1.0-bin-hadoop2.7/examples/jars/spark-examples_2.11-2.1.0.jar
사용자 Job 을 제출 하고 사용 할 자원 을 지정 합 니 다:
./bin/spark-submit  --master spark://Spark01:7077 --executor-memory 5000m --executor-cores 2 --class com.architect.spark.WordCount /root/spark-wordcount-1.0-SNAPSHOT.jar hdfs://Spark01:9000/wordcount/input hdfs://Spark01:9000/wordcount/out000
파일 디 렉 터 리 인자 입력:hdfs://Spark01:9000/wordcount/input
출력 디 렉 터 리 매개 변수:hdfs://Spark01:9000/wordcount/out000
8. Spark - SQL: Spark 통합 Hive
A) 설치 하 이브
B) Hive 프로필 복사
복사 $HIVEHOME / conf / hive - site. xml 파일 부터 $SPARKHOME / conf 아래
C) 새 파일: people. txt
1       user01  123456
2       user02  123456
3       user03  123456
4       user04  123456
D) Spark - shell 에서 Hive 를 테스트 하고 내부 표를 새로 만 들 고 로 컬 데 이 터 를 가 져 와 데 이 터 를 조회 합 니 다.
/ / HiveContext 를 예화 합 니 다.
val sqlContext = new org.apache.spark.sql.hive.HiveContext(sc) 
/ / 내부 테이블 새로 만 들 기 
sqlContext.sql("CREATE TABLE IF NOT EXISTS people (id bigint, username string, password string) row format delimited fields terminated by '\t'") 
/ / 로 컬 데이터 가 져 오기
sqlContext.sql("LOAD DATA LOCAL INPATH '/tmp/people.txt' INTO TABLE people") 
/ / 조회 데이터
sqlContext.sql("FROM people SELECT id,username").collect().foreach(println) 
E) Spark - shell 에서 결 과 를 봅 니 다.
[1,user01]
[2,user02]
[3,user03]
[4,user04]

좋은 웹페이지 즐겨찾기