impala 개념 및 구조
3421 단어 impala
impalad
impala 핵심 구성 부분 중 하나
impalad, impala 의 시작 프로 세 스 입 니 다. impalad 는 클 러 스 터 의 모든 독립 된 노드 기계 에서 실 행 됩 니 다.impala 를 사용 하려 면 impalad 프로 세 스 를 시작 해 야 합 니 다.
impalad 는 데이터 파일 을 읽 고 쓰 는 것 을 책임 지고 impala - shell 에서 보 낸 sql, command, Hue, JDBC, ODBC 요청 을 받 아들 이 며 조회 와 분포 식 작업 을 클 러 스 터 노드 에서 병행 하고 총 조회 결 과 를 전송 하여 코 디 네 이 터 노드 로 되 돌려 줍 니 다.사용 자 는 모든 클 러 스 터 노드 에 조회 요청 을 제출 할 수 있 습 니 다.
사용자 가 impala 클 러 스 터 의 한 노드 에 데이터 처리 요청 을 제출 하면 이 노드 는 coordinator node (조정기 노드) 라 고 부 르 고 다른 클 러 스 터 노드 는 그 중의 일부 처리 데 이 터 를 이 coordinator node 로 전송 하 며, coordinator node 는 최종 결과 데 이 터 를 구축 하여 사용자 에 게 되 돌려 줍 니 다.사용자 가 impala - shell 을 통 해 함 수 를 제출 할 때 도 같은 impalad 프로 세 스 에 편리 하 게 연결 할 수 있 습 니 다.
impala 는 작업 을 제출 할 때 (JDBC, ODBC 방식) round - robin 을 지원 합 니 다. 알고리즘 은 부하 균형 을 실현 하고 임 무 를 서로 다른 노드 에 제출 하여 서로 다른 coordinator node 를 구축 합 니 다.
impalad 프로 세 스 는 statestore 와 지속 적 으로 통신 하여 자신 이 있 는 노드 가 건강 한 지, 새로운 작업 요청 을 받 아들 일 수 있 는 지 확인 합 니 다.
Statestore
impala 또 다른 핵심 구성 요소 인 statestore 는 전체 클 러 스 터 의 모든 노드 의 프로 세 스 의 건강 도 를 측정 하 는 것 을 책임 집 니 다. statstore 는 findings 를 연속 적 으로 모든 노드 에 배포 하 는 프로 세 스 를 수행 합 니 다.statstore 의 물리 프로 세 스 이름 은?
statestored,
하나의 impala 클 러 스 터 에 이러한 프로 세 스 만 필요 합 니 다. 만약 에 impala 클 러 스 터 에 하나의 노드 가 하드웨어 고장 이나 네트워크 오류, 소프트웨어 문제, 또는 다른 원인 으로 인해 이 노드 를 사용 할 수 없 으 면 statestore 는 모든 클 러 스 터 에 다른 노드 를 알려 주 고 새로운 작업 을 제출 할 때 새로운 작업 을 이 고장 노드 에 나 누 어 주 는 것 을 피 할 수 있 습 니 다.
statestore 의 응용 장면 은 클 러 스 터 가 고장 이 났 을 때 클 러 스 터 의 다른 정상 적 인 노드 에 게 새로운 작업 이 올 때 작업 이 고장 난 도달 할 수 없 는 노드 로 보 내 는 것 을 피 할 수 있 기 때문에 statestore 는 관건 적 인 조작 이 아니다.statestore 가 실행 되 지 않 거나 연결 되 지 않 으 면 다른 노드 는 분포 식 배포 와 처리 임 무 를 계속 실행 할 수 있 고 모두 클 러 스 터 의 노 스틱 성에 영향 을 받 을 수 있 습 니 다.statestore 가 복 구 될 때 다른 절전 통신 과 계속 통신 한 다음 모니터링 함 수 를 복원 합 니 다.
impala sql
impala sql 과 hive sql 은 비슷 하여 기본적으로 통용 할 수 있 습 니 다.
1. impala sql 에는 update 와 delete 문구 가 없습니다.더러 운 데이터 나 만 료 된 데 이 터 는 drop table 또는 alter table, drop partition 또는 replaced 를 통 해 조작 하 러 가다
2. 데 이 터 는 insert 방식 으로 가 져 옵 니 다.insert 방식 은 두 가지 가 있 습 니 다. 그 중에서 insert into 는 이미 존재 하 는 데이터 에 append. insert overwrite 입 니 다. 기 존 데 이 터 를 덮어 씁 니 다.
3. 메타 데 이 터 는 hadop 생태 시스템 의 다른 데이터 창고 소프트웨어 와 공유 할 수 있 습 니 다. 예 를 들 어 Hive.impala 는 Hive 에서 메타 데 이 터 를 공유 합 니 다.
4. impala 데이터 형식 에 필드 길이 가 없 는 맞 춤 형 String 은 Hive 와 같 습 니 다.
impala 인터페이스
1.impala-shell
2.hue web interface
3.JDBC
4.ODBC
클 러 스 터 독립 노드 에서 실행 되 는 impala 프로 세 스 는 자주 사용 되 는 처리 요청 포트 를 감청 합 니 다.그 중에서 impala - shell 과 Hue. impalad 로 가 는 길 은 같은 포트 를 통 해, impalad 는 JDBC 와 ODBC 를 서로 다른 포트 로 처리 합 니 다.
impala 포트 응용 설명:
http://www.cloudera.com/content/cloudera-content/cloudera-docs/Impala/latest/Installing-and-Using-Impala/ciiu_ports.html?scroll=topic_ports
impala 메타 데이터
impala 의 모든 노드 는 cache 에 메타 데이터 가 있어 서 매번 요청 할 때마다 공공 메타 데이터 저장 소 에 직접 가서 조회 하지 않도록 합 니 다.매번 메타 데이터 저장 소 에 가면
조 회 는 표 의 부피 가 매우 크 고 함 유 된 구역 과 열 이 매우 많 을 때 많은 시간 을 소모 한다.
표 의 schema 나 데이터 가 변경 되면 모든 impalad 는 metastore 를 다시 업데이트 하여 오래된 metastore 를 교체 해 야 합 니 다.
REFRESH 명령 을 사용 하여 메타 데 이 터 를 업데이트 합 니 다.기본 값 은 자동 실행 REFRESH 입 니 다. 어떤 시계 가 바 뀌 었 다 는 것 을 알 면 수 동 으로 실행 할 수 있 습 니 다.
REFRESH table_name
자, 이 일 을 주동 적 으로 하 겠 습 니 다.
이 내용에 흥미가 있습니까?
현재 기사가 여러분의 문제를 해결하지 못하는 경우 AI 엔진은 머신러닝 분석(스마트 모델이 방금 만들어져 부정확한 경우가 있을 수 있음)을 통해 가장 유사한 기사를 추천합니다:
impala 개념 및 구조impalad 는 데이터 파일 을 읽 고 쓰 는 것 을 책임 지고 impala - shell 에서 보 낸 sql, command, Hue, JDBC, ODBC 요청 을 받 아들 이 며 조회 와 분포 식 작업 을 클 ...
텍스트를 자유롭게 공유하거나 복사할 수 있습니다.하지만 이 문서의 URL은 참조 URL로 남겨 두십시오.
CC BY-SA 2.5, CC BY-SA 3.0 및 CC BY-SA 4.0에 따라 라이센스가 부여됩니다.