AWS 환경에서 분석 기반 구축의 작은 이야기

1598 단어 오라클glueAWS

소개



엑사이트의 L&C 사업부에서는 온프레 환경에서 클라우드 환경으로 순차적으로 이행하고 있습니다. 그 중에 온프레 오라클의 데이터베이스 마이그레이션은 가장 어려움이 높습니다. 여기에 두 가지 옵션이 있습니다.
- ① 온프레 오라클 → AWS 오라클
- ② 온프레 오라클 → AWS PosgreSQL

표제대로 분석 기반에 대해 이야기하고 싶으므로 AWS 환경의 RDS(Oracle/PostgreSQL)에서 어떻게 분석 기반을 구축하는지 소개하고 싶습니다.

실현하고 싶은 모델





목표는 RDS에서 Redshift로 데이터를 전송할 때 개인 정보가 포함된 데이터를 해시하거나 불필요한 데이터를 삭제합니다. 또, 번거로운 배치를 쓰고 싶지 않기 때문에, 완전 매니지드형의 ETL 서비스의 Glue를 선택했습니다.

실제로 검증해 보자



AWS PostgreSQL → Redshift로 데이터 전송



결론부터 말할 수 있으면, Glue로 상당히 간단하게 실현할 수 남아 있었다. 경우에 따라 약간의 Glue 작업 스크립트에 손을 추가 할 수 있지만 다음과 같이 거의 거의 갈 수 있습니다.
  • STEP1: AWS PostgreSQL에서 분석을 위한 사용자와 View를 생성합니다.
  • STEP2: AWS Glue에서 Crawler가 PostgreSQL의 View를 참조하여 Data Catalog 테이블을 생성할 수 있습니다.
  • STEP3 : AWS Glue에 작업을 생성하고 데이터 소스에 PostgreSQL 데이터 카탈로그 테이블을 지정하고 대상에 Redshift를 지정하면 자동으로 Redshift 측에 테이블이 생성되고 데이터가 전송됩니다.

  • AWS Oracle → Redshift로 데이터 전송



    이 경우의 큰 문제는 AWS Glue에서 Crawler가 Oracle View를 볼 수 없다는 것입니다. 공식 문서에 명확하게 할 수 없다고 쓰지 않았지만 AWS 담당자에게 문의했을 때 실현이 불가능하다고 응답했습니다. 여기에 두 가지 옵션이 있습니다.
  • AWS Glue 작업에서 직접 Oracle View를 참조하도록 구현
  • Oracle View를 통과하지 않고 Oracle 테이블을 직접 참조하십시오. 불필요한 데이터 삭제나 개인 정보의 해시화 등은 Glue의 작업으로 구현합니다.

  • 결론



    AWS Oracle → Redshift로 데이터를 전송하는 경우는 Oracle View를 거치지 않고 Glue 작업 스크립트에 직접 손을 추가하는 것이 더 행복하다고 생각합니다.

    좋은 웹페이지 즐겨찾기