Redshift Serverless로 성능과 비용을 한꺼번에 해결할 수 있는 과제는?

이 기사는 AWS Advent Calendar 2021 기사입니다.
Redshift Serverless 게시!
12월 1일(일본시간) AWS re: Invent 2021은 Redshift Serverless(Preview)를 발표했다.
이 새로운 기능은 개인적으로 상당히 덥다.
평소 업무상 레드시프트 데이터를 축으로 한 시스템 개발·운용은 성능·원가·관리·운용이 힘들지만 해소될 가능성이 있다.
지금까지의 레드시프트는 클러스터를 가동하는 시간에 요금을 받는 방식이어서 사용하지 않은 시간에도 요금을 내야 하는 점이 좋지 않았다.
또 방문량이 급증하고 무거운 조회를 수행하는 등 사용 상황을 완전히 읽을 수 없는 상황에서 안정적인 성능을 위해 비교적 큰 노드 유형, 노드 수 등 관리·운용 부하를 미리 준비했다.
어렸을 때 클러스터링을 가동하고 부하가 증가할 때 일시적으로 축척동시에 배율 조정하는 기능도 있었지만, 결과적으로 아무것도 사용하지 않은 상태에서 요금을 받는 것은 변하지 않고 제약도 있어 잘 활용하기 어려웠다.
현재의 정보를 통해 알 수 있는 간단한 비교는 여기에 있다.
노드 유형/수량 관리
성능
코스트
기존 클러스터
적절한 관리 필요(높은 관리 비용)
노드 유형 수에 따라 대폭 상하
사용하지 않을 때도 요금을 내야 한다
Serverless
관리 불필요
자동 배율 조정
사용료만 받습니다.
경쟁 전략 의식
당사는 6년 정도 레드시프트를 사용했습니다. 이 기간에 데이터 양과 성능 요구에 따라 집단 유형과 노드 수를 어떻게 처리하는지 항상 골치 아픕니다.
이 고민을 해결하기 위해 최근 관심을 옮긴 스노우팩에 대한 논의가 시작됐다.
스노우플랙은 지난해부터 존재감을 급격히 키웠고, 레드시프트에서 넘어온 사례도 일부 나왔다.
AWS에도 위기감이 있었죠.이번 발표는 이용자들이 느끼는 과제 부분을 해결하고 스노우플랙에 밀리지 않겠다는 의지를 체감했다.
즉시 부딪치다
Redshift 대시보드에 표시된 Try Amazon Redshift Serverless (Preview) 버튼을 누릅니다.

레드시프트 Serverless를 처음 이용하면 신용카드 500달러를 받아 손쉽게 사용해 볼 수 있다.
Create serverless endpoint 버튼을 누르면 생성이 시작됩니다.

제작은 1분에서 2분 정도면 끝납니다.


스냅샷 복구 및 데이터 준비
Serverless endpoint가 완성된 것은 좋지만 이대로 가면 데이터가 전혀 없는 상태입니다.
스냅숏을 찍은 화면에서 기존 컬렉션의 최신 스냅숏을 선택하면 スナップショットから復元의 밑에 Restore to serverless endpoint가 나타난다.

누르면 이런 경보가 나온다.
復元를 누르면 다음 오류가 발생합니다.

ValidationException
Restoring a snapshot encrypted with AWS Service Managed Key to serverless is not yet supported. Please change the encryption type or use a snapshot encrypted with Customer Managed Key to restore to serverless.
AWS 관리 키를 사용하여 암호화된 스냅샷을 서버less로 복구할 수 없습니다.
암호화 유형을 변경하거나 고객 관리 키를 사용하여 암호화하는 스냅샷이라고 적혀 있습니다.
하지만 조사에 따르면 기존 집단의 암호화를 일시적으로 해제하지 않으면 복원할 수 없어 곤란하다.
・・・
그리고 개발 환경에서 이틀의 시간을 들여 그 번거로운 일을 복원할 수 있었고, 평소에 사용하던 약 6TB의 DB는 Serverless에서 사용할 수 있었다.
실제 제품의 ETL을 실행해 보다
그렇다면 여기서부터가 진정한 목적이다.
당사의 AWS 환경에서 매일 실행되는 ETL (수백 개의 조회 실행) 이 있습니다. 저는 이것을 Serverless로 실행하고 기존의 집단 실행 때와 비교하고 싶습니다.
그리고 신경 쓰이는 결과는 다음과 같다.

  • 기존 클러스터(ra3.xlplus*4 노드)
  • 총 처리 시간: 65분

  • Serverless
  • 총 처리 시간: 36분
  • 개발 환경이니까,ra3.lplus*4 노드, 그다지 높지 않은 규격과 비교하지만 Serverless의 처리 속도가 대폭 빨라집니다!
    아직 Serverless의 비용 정보를 찾지 못했지만 찾으면 비용 비교 후에도 업데이트됩니다.
    공짜 500달러를 다 쓰면 어떻게 될까요?이 검증이 끝났을 때 약 26달러의 무료 서류를 사용했다.
    어쨌든
    데이터 창고의 사용 과정, 예를 들어 데이터를 조회하고 불러올 때 초 단위로 비용을 받는다.데이터 창고가 비어 있을 때 비용을 받지 않습니다.
    위에 쓰여 있기 때문에 여분의 돈을 쓰지 않는 것은 좋은 일이다.
    지금 레드시프트 비용이 비싸니까.

    향후의 전망
    방금 프리뷰가 나왔기 때문에 GA 이전에 다양한 업데이트가 있을 거라고 생각했는데 결과가 기대된다.
    ra3.만약 4xlarge와 같은 상위 노드와 비교해도 손색이 없는 성능을 낼 수 있다면 대부분의 사용자들이 Serverless로 옮겨갈 것이다.
    또 Serverless 외에도 이번에 발표된자동 재료 뷰(AutoMV) 기능도 상당히 강력하다.
    레드시프트에도 경쟁사들이 고개를 들고 있어 앞으로 더 강화·개선도 빠르게 진행될 것으로 생각한다.
    사용자로서 이 장점을 잘 누리고 이를 잘 이용하여 비즈니스를 강화해야 한다.
    엔지니어 공모 집중!
    TVISION INSIGHTS 엔지니어 모집 중!
    빅데이터를 이용하여 우리 회사의 서비스를 개발하는 환경이 있다.
    Pythhon/Django/Type Script/Angular/AWS(Redshift, ECS, Lambda 등) 경험이 있는 엔지니어들은 아래 사이트를 꼭 보세요!
    참고 자료

    좋은 웹페이지 즐겨찾기