AWS 환경에서 분석 기반 구축의 작은 이야기
소개
엑사이트의 L&C 사업부에서는 온프레 환경에서 클라우드 환경으로 순차적으로 이행하고 있습니다. 그 중에 온프레 오라클의 데이터베이스 마이그레이션은 가장 어려움이 높습니다. 여기에 두 가지 옵션이 있습니다.
- ① 온프레 오라클 → AWS 오라클
- ② 온프레 오라클 → AWS PosgreSQL
표제대로 분석 기반에 대해 이야기하고 싶으므로 AWS 환경의 RDS(Oracle/PostgreSQL)에서 어떻게 분석 기반을 구축하는지 소개하고 싶습니다.
실현하고 싶은 모델
목표는 RDS에서 Redshift로 데이터를 전송할 때 개인 정보가 포함된 데이터를 해시하거나 불필요한 데이터를 삭제합니다. 또, 번거로운 배치를 쓰고 싶지 않기 때문에, 완전 매니지드형의 ETL 서비스의 Glue를 선택했습니다.
실제로 검증해 보자
AWS PostgreSQL → Redshift로 데이터 전송
결론부터 말할 수 있으면, Glue로 상당히 간단하게 실현할 수 남아 있었다. 경우에 따라 약간의 Glue 작업 스크립트에 손을 추가 할 수 있지만 다음과 같이 거의 거의 갈 수 있습니다.
목표는 RDS에서 Redshift로 데이터를 전송할 때 개인 정보가 포함된 데이터를 해시하거나 불필요한 데이터를 삭제합니다. 또, 번거로운 배치를 쓰고 싶지 않기 때문에, 완전 매니지드형의 ETL 서비스의 Glue를 선택했습니다.
실제로 검증해 보자
AWS PostgreSQL → Redshift로 데이터 전송
결론부터 말할 수 있으면, Glue로 상당히 간단하게 실현할 수 남아 있었다. 경우에 따라 약간의 Glue 작업 스크립트에 손을 추가 할 수 있지만 다음과 같이 거의 거의 갈 수 있습니다.
AWS Oracle → Redshift로 데이터 전송
이 경우의 큰 문제는 AWS Glue에서 Crawler가 Oracle View를 볼 수 없다는 것입니다. 공식 문서에 명확하게 할 수 없다고 쓰지 않았지만 AWS 담당자에게 문의했을 때 실현이 불가능하다고 응답했습니다. 여기에 두 가지 옵션이 있습니다.
결론
AWS Oracle → Redshift로 데이터를 전송하는 경우는 Oracle View를 거치지 않고 Glue 작업 스크립트에 직접 손을 추가하는 것이 더 행복하다고 생각합니다.
Reference
이 문제에 관하여(AWS 환경에서 분석 기반 구축의 작은 이야기), 우리는 이곳에서 더 많은 자료를 발견하고 링크를 클릭하여 보았다
https://qiita.com/h-sakamoto/items/280cca7d32ffd7db0f92
텍스트를 자유롭게 공유하거나 복사할 수 있습니다.하지만 이 문서의 URL은 참조 URL로 남겨 두십시오.
우수한 개발자 콘텐츠 발견에 전념
(Collection and Share based on the CC Protocol.)
Reference
이 문제에 관하여(AWS 환경에서 분석 기반 구축의 작은 이야기), 우리는 이곳에서 더 많은 자료를 발견하고 링크를 클릭하여 보았다 https://qiita.com/h-sakamoto/items/280cca7d32ffd7db0f92텍스트를 자유롭게 공유하거나 복사할 수 있습니다.하지만 이 문서의 URL은 참조 URL로 남겨 두십시오.
우수한 개발자 콘텐츠 발견에 전념 (Collection and Share based on the CC Protocol.)