Linkedin Camus, Kafka 에서 HDFS 까지 의 데이터 전송 파이프

2583 단어 빅 데이터
Preface
본 고 는 Linkedin - Camus 에 대한 소개 입 니 다.내용 은 모두 Camus 의 github 에서 추출 한 것 으로 상세 한 내용 은 그 설명 과 소스 코드 를 보아 야 한다.
Introduction of Camus
Camus 는 Linkedin 에서 시작 한 Kafka 에서 HDFS 까지 의 데이터 파이프 로 실제 적 으로 MapReduce 작업 입 니 다.
What is Avro
Apache Avro 는 하나 입 니 다. Data Serialization System, 데이터 직렬 화 시스템.  Camus 는 Avro Schema 를 사 용 했 습 니 다.
Camus Stage
Camus 작업 은 세 단계 입 니 다.
  • Setup Stage: Kafka 의 Zookeeper 에서 사용 가능 한 topics, paritions, offset 등 메타 정보 (Metadata)
  • Hadoop Job Stage: 몇 개의 task 로 topic 데 이 터 를 가 져 오고 HDFS
  • 에 쓰기 시작 합 니 다.
  • Cleanup Stage:

  • Hadoop Stage
  • Pulling the data: Setup Stage 의 데이터 에 따라 Kafka 요청 을 하고 데 이 터 를 끌 어 옵 니 다.모든 task 는 4 개의 파일 을 생 성 합 니 다: Avro data files, Count statistics files, Updated offset files, Error files
  • Committeng the data: task 가 완료 되면 끌 어 온 데 이 터 는 모두 output 디 렉 터 리 에 제출 됩 니 다
  • Storing the offset: 파 티 션 마다 offset 이 있 습 니 다. 이 offset 정 보 는 HDFS 에 저 장 됩 니 다
  • Camus Operations
    Installation
    원본 코드 다운로드 후,
    mvn clean package
    

    Create Custom Decoder for Kafka Messages
    Kafka message 의 Decoder 를 직접 만들어 야 합 니 다. com.linkedin.batch.etl.kafka.coders.KafkaMessageDecoder 이 추상 적 인 종 류 를 실현 할 수 있 습 니 다.
    Camus 설정 에서 우리 가 실현 하 는 Decoder 클래스 를 지정 해 야 합 니 다.
    Writing to Different Format
    Camus 는 기본적으로 Avro 파일 을 HDFS 에 기록 합 니 다. 우 리 는 자신의 기록 방법 을 실현 하고 통과 할 수 있 습 니 다.  etl.record.writer.provider.class= 설정 하기
    Configuration
    Camus 작업 을 실행 하기 전에 일련의 설정 이 필요 합 니 다. Camus Example 설정 을 참고 하 십시오.
    Run Camus
    hadop 작업 으로 직접 실행 하면 됩 니 다.
    hadoop jar camus-example--SNAPSHOT.jar com.linkedin.camus.etl.kafka.CamusJob
    -D    use value for given property
    -P external properties filename
    -p properties filename from the classpath

    Conclusion
    Camus 는 이미 개 발 된 시스템 구성 요소 와 같 습 니 다. 우 리 는 직접 가 져 올 수 있 습 니 다. 조금 만 설정 하면 자신의 시스템 에 끼 워 넣 을 수 있 습 니 다. Kafka 에서 HDFS 까지 의 데이터 관 으로 사용 할 수 있 습 니 다.  관건 은 두 가지 유형, Decoder 와 Writer 를 실현 하여 우리 의 시스템 업 무 를 만족 시 키 는 것 이다.

    좋은 웹페이지 즐겨찾기