ETL에서 AWS를 사용할 때의 선택 항목
5171 단어 DataPipelineETLAWS
어제는takatrixGo 언어로 어구 검색을 해보도록 하겠습니다.였어요.
개시하다
ETL 소재로 덮어주세요.
기지를 활용해 작년 말 AWS re:Invent 2018에 나온 글루의 상위판처럼 AWS Lake Formation의 미리보기를 신청해 내용을 변경하면 좋겠지만, 능력이 부족해 신경 쓸 필요 없으니 기록해 두세요.
적어도 글루는 피하고 지금은 DataPipeline 중심의 콘텐츠로 선택을 망설이는 데 도움을 줄 수 있다면 좋겠다.
AWS Data Pipeline
AWS Data Piperline
간단히 말해서 ETL(추출, 변환, 로드)을 수행하는 AWS 서비스입니다.
느낌은 있지만 구성 요소만 연결하면 직관적이고 알기 쉬우며 정식 문서만 읽으면 기본적으로 쓰여 있기 때문에 사용하기가 매우 어렵다.
기초 지식
파이프를 생성한 이미지입니다.위와 같은 것은 템플릿(후술)을 사용하여 만든 것이다.
다음 구성 요소를 정의하고 구성합니다.
Activities
데이터 처리 내용을 정의하는 구성 요소입니다.
뒤에 설명된 DataNodes 및 Resouces 를 사용하여 수행합니다.
AWS Data Piperline
간단히 말해서 ETL(추출, 변환, 로드)을 수행하는 AWS 서비스입니다.
느낌은 있지만 구성 요소만 연결하면 직관적이고 알기 쉬우며 정식 문서만 읽으면 기본적으로 쓰여 있기 때문에 사용하기가 매우 어렵다.
기초 지식
파이프를 생성한 이미지입니다.위와 같은 것은 템플릿(후술)을 사용하여 만든 것이다.
다음 구성 요소를 정의하고 구성합니다.
Activities
데이터 처리 내용을 정의하는 구성 요소입니다.
뒤에 설명된 DataNodes 및 Resouces 를 사용하여 수행합니다.
Data Nodes
출력에 사용되는 데이터의 위치와 유형에 대한 정의를 입력합니다.
Schedules
실행 스케줄 정의.일정을 특별히 정의하지 않고 필요에 따라 집행할 수도 있다.
Resouces
Activites 및 Precionditions를 실행하는 컴퓨팅 리소스 에서 EC2 또는 EMR 클러스터를 선택합니다.
PreConditions
활동을 실행하기 위한 사전 정의 기준을 정의할 수 있습니다.
파일이 있는 상태에서 실행할 수도 있고 데이터의 존재를 확인할 수도 있다.
사용법
예를 들어 데이터가 S3에서 RDS로 이동하면 S3과 RDS의 데이터 노드(관련 정보의 정의도 적절하게 생성)를 만들어 복제 활동과 실행 자원을 만들고 연결한다.
보태다
총결산
참고 자료
Reference
이 문제에 관하여(ETL에서 AWS를 사용할 때의 선택 항목), 우리는 이곳에서 더 많은 자료를 발견하고 링크를 클릭하여 보았다 https://qiita.com/kanoka9/items/898e858eb57fa806b4a8텍스트를 자유롭게 공유하거나 복사할 수 있습니다.하지만 이 문서의 URL은 참조 URL로 남겨 두십시오.
우수한 개발자 콘텐츠 발견에 전념 (Collection and Share based on the CC Protocol.)