Snowflake 데이터 내보내기를 빠르게 시도해 보십시오.

3638 단어 SnowflakeDataLake
이 글은 Snowflak 추가 일정 15일째 되는 글이다.
Snowflak 써요???
Snowflak 덕분에 운용비용과 신경 쓰는 부분이 줄었는데 누가 큰 도움이 됐나요?
나야.
오늘의 에피소드.
가끔 Snowflake에서 S3 등으로 데이터를 출력하도록 강요받죠?
위인: "마름소군, 스노우flak에 있는 데이터를 하이브의 파티 형식으로 쓰세요."
나(알았어!)"번거로운데 왜 스노우플러그에 담긴 데이터를 빼내셨을까..."
네, 이런 일은 일상생활에 있죠?
지금까지는 영차한 느낌으로 느낌 좋은 해결 방안을 내놓고 전환하고 있었지만, 그것도 오늘 끝!
오늘 소개할 건...
이것
DATA LAKE EXPORT PUBLIC PREVIEW IS NOW AVAILABLE ON SNOWFLAKE
데이터 지연 내보내기가 공공 검사가 되었습니다!
어떤 기능이냐면요.
  • 는 Hive 형식의 섹션에 쓸 수 있습니다.옵션 예: partition by ('year=' || year_col || '/date=' || date_col)이거다!나 이거 갖고 싶어!!
  • 파일의 최대 크기를 지정할 수 있습니다.옵션 예: max_file_size = 512000000
  • =>이렇게 하면 다양한 게임을 할 수 있습니다!!
  • 파일 이름에 작업 ID를 포함합니다.
  • =>편리한 지원 제공!!
  • 그러니까
    빨리 써보세요.
    이번에 사용한 환경.
    항목

    옷 가게
    XS
    소스 테이블
    외부 테이블
    소스 테이블의 실제 크기
    10GB
    소스 테이블 행 수
    29150283행
    소스 테이블 위치
    S3(도쿄)
    마운트 해제 위치
    S3(도쿄)
    우선 새로운 기능을 사용하지 말고 소스 시계를 제거해 보세요.
    COPY INTO @churadata_output_test/auto/
    FROM (
        select * from "CHURADATA_DB"."PUBLIC"."HOGE"
        where dt = '2020-07-20'
    )
    FILE_FORMAT = parquet_auto_format
    ;
    
    항목

    운행 시간
    2분 3초.
    input_bytes,output_bytes
    6,532,309,385(6.5GB)
    아이고, 원래 서류보다 훨씬 작네.대단하다주제가 아니기 때문에 사랑을 끊는다.
    S3를 보면 1 파일은 기본 16MB입니다.

    자세히 보면 파일 이름에 숫자가 있어요.이게 미션 ID인가요?
    하이브 파티로 써주세요!
    COPY INTO @churadata_output_test/part/
    FROM (
        select * from "CHURADATA_DB"."PUBLIC"."HOGE"
        where dt = '2020-07-20'
    )
    partition by ('dt=' || dt)
    FILE_FORMAT = parquet_auto_format
    ;
    
    Hive 파티션을 지정하더라도 질의의 실행 시간은 지정하지 않은 시간에 비해 변경되지 않습니다.
    항목

    운행 시간
    2분 5초.
    input_bytes,output_bytes
    6,532,309,385(6.5GB)
    그리고 Hive 형식의 경로에 잘 저장되어 있습니다!


    아까 파일 이름의 명명 규칙과 조금 다르게 긴 이름이 됐어요.이게 미션 ID인가요?
    max_file_사이즈로 보세요!
    설정max_file_size하면 성능이 달라지나요?
    COPY INTO @churadata_output_test/part_32/
    FROM (
        select * from "CHURADATA_DB"."PUBLIC"."HOGE"
        where dt = '2020-07-20'
    )
    partition by ('dt=' || dt)
    FILE_FORMAT = parquet_auto_format
    max_file_size = 32000000
    ;
    
    이렇게 됐어요.
    max_file_size
    운행 시간
    실제 파일 크기
    32000000
    1분 53초.
    30.7 MB
    64000000
    1분 53초.
    61.1 MB
    128000000
    1분 50초.
    122.6 MB
    256000000
    1분 53초.
    244.1 MB
    512000000
    1분 52초.
    384.4 MB
    1024000000
    1분51초
    384.8 MB
    2048000000
    1분51초
    385.5 MB
    음, 의외로 6GB 안팎의 테이블 크기는 20개 안팎에 불과했고 1개 파일의 용량은 400MB에 미치지 못했다.
    다만, 어느 것도 지정하지 않은 것max_file_size보다 약간 고속으로 하역할 수 있다.
    끝맺다
    이렇게 되면 처음 에피소드대로 하이브 형식으로 써주세요!(스파크로 처리했어!)
    이럴 때도 잘 되네!
    Snowflak의 새로운 기능을 기대하십시오!
    스노우파크 빨리 쓰고 싶다!

    좋은 웹페이지 즐겨찾기