Embulk 정보

1569 단어 ETLEmbulk애드테크


데이터 분석 기반 입문을 읽은 정리.
개인적으로 필요한 부분에 대해서만.

Embulk 소개.

총론



이용방법과 어디에 특화되어 있는지 이해

Embulk이란?



배치형의 병렬·분산 벌크 데이터 로더
간단히 말하면 대량 데이터를 효율적으로 전송하는 도구
병렬 처리를 가지고 있는 것만으로 병렬 정의할 수 있는 것은 아니다 (그것은 digdag)

등장 배경



준 실시간 수집으로 유스 케이스 증가
  • 영향
  • 추출 배치 설정 파일 번잡화에 의한 속인화·보수성의 저하
  • 주기적 대량 읽기


  • 읽기 대상 예


  • CSV 파일
  • S3
  • MySQL
  • PostgreSQL

  • 할 수 있는 일


  • 추출, 가공, 출력 처리를 설정 파일로 결합
  • 조합에 의한 직렬/병렬도, 유량 및 타이밍 조정 (파이프 라인 처리)
  • 처리 단위 제어
  • 재연속 처리
  • 오류 재시도 제어

  • 특징


  • 플러그인 확장
  • 스키마를 사용한 데이터 유효성 검사

  • 사용소


  • 일시적인 처리 부하가 걸리는 케이스 예
  • 매일 파티셔닝 된 스키마에 일일 출력시
  • 로그 증가와 집계 처리의 동시간대 발생시
  • 메모리 용량 박박에 의한 인덱스 갱신 지연시


  • 책 정보



    스즈키 켄타, 요시다 켄타로, 오타니 준, 도이 슌스케, 데이터 분석 기반 구축 입문
    htps : // 아 mz 응. 및 / 2B6f8G5

    잡감



    컨텍스트에서 약간의 표현이 있습니다.
    읽기, 읽기, 쓰기, 쓰기
    ETL의 E (추출)에 대한 읽기/읽기
    T(변환)에는 실질 가공도 포함되므로 변환·가공이라고 표기
    L (읽기)은 출력 대상에 대해 "읽을 수 있습니다"라는 의미에서 L
    L의 대상에 쓰기 · 쓰기
    그리고 해석
    단지 읽기는 대상이나 활용형에 의해 대상이 어느 쪽도 되기 때문에 이 근처는 표기 흔들리지 않는 것이 좋을 것 같다

    좋은 웹페이지 즐겨찾기