hadoopHDFS-1

HDFS 분산 파일 시스템 NamenodeSecondarynodeDatanode
MapReduce 분산 컴퓨팅 프레임워크JobTrackerTaskTrackerMap TaskReducer Task
Yarn 집단 자원 관리 시스템 Resource 관리자 Nodemanager Application Master Container Client
hadoop 설치(단일 모드)
selinux와 iptables 설정/etc/hosts를 사용하지 않으면 모든 호스트 도메인 이름이 서로 해석될 수 있습니다
1. 자바#yum install 자바-1.8.0-openjdk -y 설치
검증: #java-version
2、jps#yum install java 설치 -1.8.0-openjdk-devel -y
유효성 검사: #jps
3, 설치 hadoop #tar zxf hadoop -2.7.3.tar.gz#mv hadoop-2.7.3/usr/local/hadoop
설정 파일의 실행 환경을 수정합니다: #vim/usr/local/hadoop/hadoop/hadoop-env.shexport JAVA_HOME="/usr/lib/jvm/java-1.8.0-openjdk-1.8.0.65-3.b17.el7.x86_64/jre"export HADOOP_CONF_DIR="/usr/local/hadoop/etc/hadoop"
확인: #cd/usr/local/hadoop#./bin/hadoop version
통계 분석 열사 생성 데이터 소스 #mkdir input 이 폴더에 통계 분석이 필요한 데이터 #cp*를 넣습니다.txt input/
통계 분석 1 단어가 나오는 빈도 # 전제는 호스트 이름으로ping으로 자신을 통과해야 한다 #vim/etc/hosts127.0.0.1 node1 ...
#./bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.3.jar wordcount /input /output

통계 분석 2 어떤 키워드가 나타나는 빈도, 예를 들어 dfs라는 단어의 앞글자는 h의 출현 빈도#./bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.3.jar grep/input/output1 '(?<=h)dfs'
정렬 오류 1 프롬프트 JAVAHOME is not set and could not be found는 JAVAHome에서 해결 방법을 설정하지 않았습니다:hadoop-env를 설정합니다.sh 안에 있는 JAVA...HOME 또는 실행 스크립트 앞에 선행 변수 설정 추가 JAVAHOME="/usr/lib/jvm/java-1.8.0-openjdk-1.8.0.65-3.b17.el7.x86_64/jre"./bin/hadoop jar ./share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.3.jar wordcount input output
오류 정렬 2 힌트java.net.UnknownHostException: host: host: unknown errorat java.net.InetAddress.getLocalHost(InetAddress.java:1505)는 호스트 이름에 IP 해석 해결 방법이 없음을 나타냅니다./etc/hosts에 호스트 이름의 IP 대응 관계를 추가합니다.
오류 3 프롬프트: 17/07/24 23:10:46 INFO jvm.JvmMetrics: Cannot initialize JVM Metrics with processName=JobTracker, sessionId= - already initializedorg.apache.hadoop.mapred.FileAlreadyExistsException: Output directory file:/usr/local/hadoop/output already exists는 출력된 파일 디렉터리에 해결 방법이 있음을 나타냅니다. 존재하는 디렉터리를 삭제하거나 결과 저장 위치를 변경합니다
http://hadoop.apache.org
# for i in node{1..3}; do ssh ${i} 'yum install java-1.8.0-openjdk-devel -y'; done

위조 분산 구성:
xml 설정 형식 키워드 변수 값 설명
설정 파일 경로/usr/local/hadoop/etc/hadoop/1 설정hadoop-env.shexport JAVA_HOME="/usr/lib/jvm/java-1.8.0-openjdk-1.8.0.65-3.b17.el7.x86_64/jre"export HADOOP_CONF_DIR= "/usr/local/hadoop/etc/hadoop"찾기 JAVAHOME#readlink -f $(which java)
2 core-site를 구성합니다.xmlhttps://hadoop.apache.org/docs/r2.7.3/hadoop-project-dist/hadoop-common/core-default.xml
fs.defaultFSfile:///hadoop.tmp.dir#hadoop 데이터 루트/var/hadoop
hdfs://namenode:port/
3 hdfs-site. 구성xmlhttps://hadoop.apache.org/docs/r2.7.3/hadoop-project-dist/hadoop-hdfs/hdfs-default.xml
dfs.replication2 파일 복사 부수 dfs.namenode.http-address192.168.4.10:50070dfs.namenode.secondary.http-address192.168.4.10:50090
공통 구성 옵션 dfs.namenode.name.dirdfs.datanode.data.dirdfs.namenode.http-addressdfs.namenode.secondary.http-addressdfs.webhdfs.enableddfs.permissions.enabled
4 mapred-site를 구성합니다.xmlhttps://hadoop.apache.org/docs/r2.7.3/hadoop-mapreduce-client/hadoop-mapreduce-client-core/mapred-default.xml
mapreduce를 지정하는 자원 관리자 (단기적으로local) mapreduce.framework.nameyarn # yarn을 사용하여 집단 자원 관리를 하고 yran을 사용하여 관리하면 어울리지 않습니다. yarn은 자동으로 jobtracker와tasktracker 역할을 관리합니다. 여기서 우리는 마스터를 jobtracker #에 jobtracker를 지정합니다.http 포트 mapreduce.jobtracker.http.addressmaster:50030mapreduce.jobhistory.addressmaster:10020mapreduce.jobhistory.webapp.addressmaster:19888
일반적인 구성 옵션 mapreduce.framework.namemapreduce.jobtracker.http.address
mapreduce.jobhistory.addressmapreduce.jobhistory.webapp.address
Hadoop은 자체 히스토리 서버를 가지고 있어 이미 실행된 Mapreduce 작업 기록을 히스토리 서버를 통해 확인할 수 있다. 예를 들어 맵을 얼마나 사용했는지, Reduce를 얼마나 사용했는지, 작업 제출 시간, 작업 시작 시간, 작업 완료 시간 등 정보를 볼 수 있다.기본적으로 Hadoop 역사 서버는 시작되지 않았습니다. 다음 명령을 통해 Hadoop 역사 서버 #mr-jobhistory-daemon을 시작할 수 있습니다.sh start history server 이렇게 하면 우리는 해당 기계의 19888 포트에서 역사 서버의 WEB UI 인터페이스를 열 수 있다.이미 실행된 작업 상황을 볼 수 있습니다.역사 서버는 단독으로 한 기계에서 시작할 수 있다
5 설정 yarn-site.xmlhttps://hadoop.apache.org/docs/r2.7.3/hadoop-yarn/hadoop-yarn-common/yarn-default.xml
yarn.nodemanager.aux-servicesmapreduce_shuffle

    yarn.resourcemanager.hostname
    master

일반적인 구성 옵션 yarn.nodemanager.aux-servicesyarn.nodemanager.aux-services.mapreduce.shuffle.classyarn.resourcemanager.hostname

좋은 웹페이지 즐겨찾기