StreamSets Data Collector 소개

미국에 거주하는 자바 여자입니다.
StreamSets라고 하는 샌프란시스코의 스타트업(이라고 할까 자신이 일하고 있는 회사입니다만 w)가 개발하고 있는, Data Collecter에 대해 소개해 보겠습니다.

Data Collector란 무엇입니까?

회사 홈페이지에 따르면

StreamSets Data Collector is a lightweight, powerful engine that streams data in real time. Use Data Collector to route and process data in your data streams.

가볍고 강력한 데이터 스트리밍 엔진으로, 데이터의 이동과 변환을 간단하게 GUI로 할 수 있어요, 라고 하는 제품입니다. 오픈 소스 제품이므로 소스 코드가 공개되었습니다 (github.com/streamsets)

예를 들어 로컬 파일을 field validation을 하면서 Hadoop FS로 이동시키거나 Apache Web server의 로그를 ElasticSearch로 이동시켜 도중의 과정에서 alert를 검출하거나.

제품의 GUI 화면입니다. 홈페이지에서 인용.

현재 데이터 입력 소스

로컬 파일

File Tail

Hadoop FS

JDBC

HTTP Client

Amazon S3

Kafka

MongoDB

Omniture

MapR

RPC

UDP

RabbitMQ

데이터 입력 대상은

카산드라

Elasticsearch

Flume

Hadoop FS

HBase

Hive Streaming

InfluxDB

JDBC

Kafka

Kinesis

MapR

RabbitMQ

SDC RPC

Solr

Error/Trash

인스톨 해 GUI 화면을 보면 어쩐지 알 수 있다고 생각하므로, 조속히 인스톨과 기동을 해 보자.

설치 및 시작

운영 환경
- Mac OS
- Java 1.8 설치됨

streamsets.com 사이트로 이동하여 오른쪽 상단의 Download Open Source를 클릭하십시오.

다운로드 사이트에서 타르볼을 다운로드. 적절한 디렉토리에서,

$ tar xvzf streamsets-datacollector-all-1.2.2.0.tgz
$ streamsets-datacollector-1.2.2.0/bin/streamsets dc

브라우저에서 http://localhost:18630로 이동하면 로그인 페이지가 표시됩니다!

Username과 Password는 모두 admin으로 로그인합니다.
Create new pipeline 버튼을 클릭하세요. 적절하게 파이프 라인의 이름을 입력하십시오.

여기가 GUI 화면입니다. (초기 상태는 에러가 2개 표시되어 있을 것입니다)

이 캠퍼스 위에 입력원이나 입력처의 아이콘을 놓아 데이터 스트리밍 파이프라인을 만들어 갑니다!

예를 들어, 로컬 파일에서 데이터를 2종류로 나누어, Jython Evaludator와 Field Masker를 사용하면서 데이터를 정리해, 최종적으로 Hadoop FS로 이동시키는 파이프라인 예.

방대한 JSON 객체를 Apache Hive로 이동시키는 예.

우선 이번에는 여기까지. 다음에는 튜토리얼을 타고 있는 파이프라인을 실제로 만들어 보고 싶습니다.

Reference

이 문제에 관하여(StreamSets Data Collector 소개), 우리는 이곳에서 더 많은 자료를 발견하고 링크를 클릭하여 보았다 https://qiita.com/junko_urata/items/e6355bba3ad3f35c854e

텍스트를 자유롭게 공유하거나 복사할 수 있습니다.하지만 이 문서의 URL은 참조 URL로 남겨 두십시오.

우수한 개발자 콘텐츠 발견에 전념 (Collection and Share based on the CC Protocol.)

좋은 웹페이지 즐겨찾기

개발자 우수 사이트 수집

개발자가 알아야 할 필수 사이트 100선 추천 우리는 당신을 위해 100개의 자주 사용하는 개발자 학습 사이트를 정리했습니다