bulk - load hdfs 데 이 터 를 hbase 소결 로 불 러 옵 니 다.

bulk - load 의 역할 은 mapreduce 방식 으로 hdfs 의 파일 을 hbase 에 불 러 오 는 것 입 니 다. 대량의 데 이 터 를 hbase 에 불 러 오 는 데 매우 유용 합 니 다. 참고 하 십시오.http://hbase.apache.org/docs/r0.89.20100621/bulk-loads.html:
hbase 는 hdfs 의 파일 을 hbase, 즉 bulk - load 방식 으로 가 져 오 는 기 존 프로그램 을 제공 합 니 다.그것 은 두 가지 절 차 를 포함한다 (한 번 에 완성 할 수도 있다).
1 파일 을 hfile, hadop jar / path / to / hbase. jar importtsv - Dimporttsv. columns = a, b, c < tablename > < input dir > 로 포장 합 니 다.
예 를 들 면:
	hadoop dfs -cat test/1
	1       2
	3       4
	5       6
	7       8

집행 하 다.
	hadoop jar ~/hbase/hbase-0.90.2.jar importtsv -Dimporttsv.columns=HBASE_ROW_KEY,f1 t8 test

maprediuce 프로그램 을 시작 하여 hdfs 에 t8 표를 생 성 합 니 다. rowkey 는 각각 1, 3, 5, 7 이 고 대응 하 는 value 는 2, 4, 6, 8 입 니 다.
원본 파일 은 기본적으로 "\ t" 를 분할 문자 로 합 니 다. 다른 분할 문자 로 바 꾸 려 면 실행 할 때 - Dimporttsv. separator = "을 추가 하면", "분할" 이 됩 니 다.
2. 이전 단계 에서 출력 디 렉 터 리 를 설정 하면
   hadoop jar ~/hbase/hbase-0.90.2.jar importtsv -Dimporttsv.bulk.output=tmp -Dimporttsv.columns=HBASE_ROW_KEY,f1 t8 test

그러면 t8 표 는 아직 생 성 되 지 않 습 니 다. hfile 을 tmp 폴 더 에 출력 할 뿐 tmp 를 볼 수 있 습 니 다.
	hadoop dfs -du tmp
	Found 3 items
	0           hdfs://namenode:9000/user/test/tmp/_SUCCESS
	65254       hdfs://namenode:9000/user/test/tmp/_logs
	462         hdfs://namenode:9000/user/test/tmp/f1

그리고 hadop jar hbase - VERSION. jar completebulkload / user / todd / my output my table 을 실행 하여 이 출력 디 렉 터 리 의 hfile 을 대응 하 는 region 으로 옮 깁 니 다. 이 단 계 는 뮤 직 비디오 이기 때문에 상당히 빠 릅 니 다.예:
hadoop jar ~/hbase/hbase-0.90.2.jar completebulkload tmp t8
그리고
hadoop dfs -du /hbase/t8/c408963c084d328490cc2f809ade9428
	Found 4 items
	124         hdfs://namenode:9000/hbase/t8/c408963c084d328490cc2f809ade9428/.oldlogs
	692         hdfs://namenode:9000/hbase/t8/c408963c084d328490cc2f809ade9428/.regioninfo
	0           hdfs://namenode:9000/hbase/t8/c408963c084d328490cc2f809ade9428/.tmp
	462         hdfs://namenode:9000/hbase/t8/c408963c084d328490cc2f809ade9428/f1

이때 이미 표 t8 이 생 성 되 었 습 니 다.
데이터 가 매우 크 고 표 에 region 이 있 으 면 분할 작업 을 수행 하여 데이터 에 대응 하 는 region 을 찾 아 불 러 옵 니 다.
        프로그램 사용 중 주의:
1 hadop 프로그램 을 실행 하기 때문에 hbase 의 config 경 로 를 자동 으로 찾 지 못 하고 hbase 의 환경 변 수 를 찾 지 못 합 니 다.따라서 hbase - site. xml 를 hadop - conf 변수 에 추가 해 야 합 니 다.
2. hbase / lib 의 jar 가방 을 classpath 에 넣 어야 합 니 다.
3. 이상 의 절 차 를 실행 할 때 zookeeper 의 설정 을 core - site. xml 에 기록 해 야 합 니 다. 그 단계 에 서 는 hbase - site. xml 를 읽 지 않 기 때문에 zookeeper 가 연결 되 지 않 습 니 다.

좋은 웹페이지 즐겨찾기