Embulk 정보

데이터 분석 기반 입문을 읽은 정리.
개인적으로 필요한 부분에 대해서만.

Embulk 소개.

총론

이용방법과 어디에 특화되어 있는지 이해

Embulk이란?

배치형의 병렬·분산 벌크 데이터 로더
간단히 말하면 대량 데이터를 효율적으로 전송하는 도구
병렬 처리를 가지고 있는 것만으로 병렬 정의할 수 있는 것은 아니다 (그것은 digdag)

등장 배경

준 실시간 수집으로 유스 케이스 증가

영향

추출 배치 설정 파일 번잡화에 의한 속인화·보수성의 저하

주기적 대량 읽기

읽기 대상 예

CSV 파일

MySQL

PostgreSQL

할 수 있는 일

추출, 가공, 출력 처리를 설정 파일로 결합

조합에 의한 직렬/병렬도, 유량 및 타이밍 조정 (파이프 라인 처리)

처리 단위 제어

재연속 처리

오류 재시도 제어

특징

플러그인 확장

스키마를 사용한 데이터 유효성 검사

사용소

일시적인 처리 부하가 걸리는 케이스 예

매일 파티셔닝 된 스키마에 일일 출력시

로그 증가와 집계 처리의 동시간대 발생시

메모리 용량 박박에 의한 인덱스 갱신 지연시

책 정보

스즈키 켄타, 요시다 켄타로, 오타니 준, 도이 슌스케, 데이터 분석 기반 구축 입문
htps : // 아 mz 응. 및 / 2B6f8G5

잡감

컨텍스트에서 약간의 표현이 있습니다.
읽기, 읽기, 쓰기, 쓰기
ETL의 E (추출)에 대한 읽기/읽기
T(변환)에는 실질 가공도 포함되므로 변환·가공이라고 표기
L (읽기)은 출력 대상에 대해 "읽을 수 있습니다"라는 의미에서 L
L의 대상에 쓰기 · 쓰기
그리고 해석
단지 읽기는 대상이나 활용형에 의해 대상이 어느 쪽도 되기 때문에 이 근처는 표기 흔들리지 않는 것이 좋을 것 같다

Reference

이 문제에 관하여(Embulk 정보), 우리는 이곳에서 더 많은 자료를 발견하고 링크를 클릭하여 보았다 https://qiita.com/dich1/items/0ec0e31b437659628ef5

텍스트를 자유롭게 공유하거나 복사할 수 있습니다.하지만 이 문서의 URL은 참조 URL로 남겨 두십시오.

우수한 개발자 콘텐츠 발견에 전념 (Collection and Share based on the CC Protocol.)

좋은 웹페이지 즐겨찾기

개발자 우수 사이트 수집

개발자가 알아야 할 필수 사이트 100선 추천 우리는 당신을 위해 100개의 자주 사용하는 개발자 학습 사이트를 정리했습니다