StreamSets Data Collector 소개

미국에 거주하는 자바 여자입니다.
StreamSets라고 하는 샌프란시스코의 스타트업(이라고 할까 자신이 일하고 있는 회사입니다만 w)가 개발하고 있는, Data Collecter에 대해 소개해 보겠습니다.

Data Collector란 무엇입니까?



회사 홈페이지에 따르면

StreamSets Data Collector is a lightweight, powerful engine that streams data in real time. Use Data Collector to route and process data in your data streams.

가볍고 강력한 데이터 스트리밍 엔진으로, 데이터의 이동과 변환을 간단하게 GUI로 할 수 있어요, 라고 하는 제품입니다. 오픈 소스 제품이므로 소스 코드가 공개되었습니다 (github.com/streamsets)

예를 들어 로컬 파일을 field validation을 하면서 Hadoop FS로 이동시키거나 Apache Web server의 로그를 ElasticSearch로 이동시켜 도중의 과정에서 alert를 검출하거나.

제품의 GUI 화면입니다. 홈페이지에서 인용.


현재 데이터 입력 소스
  • 로컬 파일
  • File Tail
  • Hadoop FS
  • JDBC
  • HTTP Client
  • Amazon S3
  • Kafka
  • MongoDB
  • Omniture
  • MapR
  • RPC
  • UDP
  • RabbitMQ

  • 데이터 입력 대상은
  • 카산드라
  • Elasticsearch
  • Flume
  • Hadoop FS
  • HBase
  • Hive Streaming
  • InfluxDB
  • JDBC
  • Kafka
  • Kinesis
  • MapR
  • RabbitMQ
  • SDC RPC
  • Solr
  • Error/Trash

  • 인스톨 해 GUI 화면을 보면 어쩐지 알 수 있다고 생각하므로, 조속히 인스톨과 기동을 해 보자.

    설치 및 시작



    운영 환경
    - Mac OS
    - Java 1.8 설치됨

    streamsets.com 사이트로 이동하여 오른쪽 상단의 Download Open Source를 클릭하십시오.


    다운로드 사이트에서 타르볼을 다운로드. 적절한 디렉토리에서,
    $ tar xvzf streamsets-datacollector-all-1.2.2.0.tgz
    $ streamsets-datacollector-1.2.2.0/bin/streamsets dc
    

    브라우저에서 http://localhost:18630로 이동하면 로그인 페이지가 표시됩니다!



    Username과 Password는 모두 admin으로 로그인합니다.
    Create new pipeline 버튼을 클릭하세요. 적절하게 파이프 라인의 이름을 입력하십시오.

    여기가 GUI 화면입니다. (초기 상태는 에러가 2개 표시되어 있을 것입니다)


    이 캠퍼스 위에 입력원이나 입력처의 아이콘을 놓아 데이터 스트리밍 파이프라인을 만들어 갑니다!

    예를 들어, 로컬 파일에서 데이터를 2종류로 나누어, Jython Evaludator와 Field Masker를 사용하면서 데이터를 정리해, 최종적으로 Hadoop FS로 이동시키는 파이프라인 예.


    방대한 JSON 객체를 Apache Hive로 이동시키는 예.


    우선 이번에는 여기까지. 다음에는 튜토리얼을 타고 있는 파이프라인을 실제로 만들어 보고 싶습니다.

    좋은 웹페이지 즐겨찾기