Apache Spark를 공부하고 분산 처리할 수 있어요! 라고 말할 수 있게 된다 그 3

3134 단어 스파크

지난번은 여기



소개



오늘은 실제로 spark의 분산 처리의 순서를 쫓고 싶습니다.

준비



Virtual Box 설치하기



Vagrant 설치하기



가상 환경 구축


$ mkdir vagrant_test
$ cd vagrant_test
$ vagrant init

Vagrantfile 편집하기



이렇게 좋을 것.
Vagrant.configure(2) do |config|
 config.vm.box = "opscode-centos-6.6"
end

움직여 보자



오류가 없으면 k.
$ vagrant up

가상 서버에 ssh 연결 시도


$ vagrant ssh

다른 세부 사항은 vagrant 태그에서 확인하는 것이 좋습니다.
기본적인 것은 이 기사을 참고로 했다.

OS 설정 변경



이 모서리는 프로비저닝 도구를 사용했으므로 설명을 생략합니다.yum update 또는 도구를 넣었습니다.
좋은대로 해주세요.

Spark 환경을 가상 환경에 도입



Java JDK 설치


  • 여기에서 jdk-8u65-linux-x64.rpm까지 녀석 다운로드
  • 다운로드 한 파일을 Vagrantfile 디렉토리로 이동
  • $ mv Downloads/jdk-8u65-linux-x64.rpm vagrant_test
    
  • vagrant ssh 및 가상 환경에서 Java JDK 설치
  • $ sudo yum localinstall /vagrant/jdk-8u65-linux-x64.rpm
    

    파이썬


  • 파이썬이 이미 설치되어 있으므로 그대로 사용
  • python --version
    
  • pip만 넣으면 편리할지도 (나는 이번에 넣지 않았습니다><)

  • Spark 설치


  • Java JDK와 마찬가지로 다운로드 한 파일을 Vagrantfile과 동일한 디렉토리로 이동
  • 나머지는 과 같이 해동하여 사용하면 된다.
  • 압축을 풀면 적절한 장소로 이동
  • $ sudo mv spark-1.5.2/ /etc/spark
    
  • 필요한 경우 Spark 설정 조정

  • Spark를 움직여보세요



    이동하는 방법은 Spark 문서 Spark Standalone Mode를 참조하십시오.
    이번에는 local을 master, vm을 slave로 움직입니다.
  • 마스터 서버 이동
  • $ sudo ./sbin/start-master.sh
    
  • slave 이동
    인수에는 master의 URL를 건네준다.
  • $ ./sbin/start-slave.sh <master-spark-URL>
    

  • http://localhost-8080.com/에 연결하면 다양한 정보를 볼 수 있습니다.

  • master의 URL이나 현재의 slave의 상황 등을 볼 수 있다.
    여기에 연결하여 slave가 움직이고 있는지 확인


  • 나머지는 보통 spark-shell 등을 실행하고 처리를 명령으로 두드리면 된다.
    그때 인수로서 master URL을 건네준다
  • $ ./bin/spark-shell --master <master-spark-URL>
    

    좋은 웹페이지 즐겨찾기