Glue의 사용법 ⑮ (크롤러 (Crawler)의 Configuration option 2)

5848 단어 AthenaglueAWS

Crawler Configuration options의 효과를 살펴보기



이번에 사용할 Glue 리소스 이름



크롤러 이름



se2_in8
se2_out11

작업 이름



se2_job11

데이터



입력:in8
출력:out11

전체 흐름


  • 이전 준비
  • Crawler Configuration option의 기본값 확인
  • 구성 옵션 확인
  • AWS Glue에서 데이터스토어를 삭제한 후 객체를 어떻게 처리합니까?

  • 이전 준비



    이번에 사용하는 샘플 로그 파일(19건)



    Glue의 사용법적인 ②(csv데이터를 분할한 parquet로 변환) 작업을 se2_job10, 입력 데이터를 in8, 출력 데이터를 out11로 사용합니다.

    위에서 수행 된 프로세스는 다음 CSV 파일을 year, month, day, hour로 분할합니다.

    원본 CSV 파일 cvlog.csv
    deviceid,uuid,appid,country,year,month,day,hour
    iphone,11111,001,JP,2017,12,14,12
    android,11112,001,FR,2017,12,14,14
    iphone,11113,009,FR,2017,12,16,21
    iphone,11114,007,AUS,2017,12,17,18
    other,11115,005,JP,2017,12,29,15
    iphone,11116,001,JP,2017,12,15,11
    pc,11118,001,FR,2017,12,01,01
    pc,11117,009,FR,2017,12,02,18
    iphone,11119,007,AUS,2017,11,21,14
    other,11110,005,JP,2017,11,29,15
    iphone,11121,001,JP,2017,11,11,12
    android,11122,001,FR,2017,11,30,20
    iphone,11123,009,FR,2017,11,14,14
    iphone,11124,007,AUS,2017,12,17,14
    iphone,11125,005,JP,2017,11,29,15
    iphone,11126,001,JP,2017,12,19,08
    android,11127,001,FR,2017,12,19,14
    iphone,11128,009,FR,2017,12,09,04
    iphone,11129,007,AUS,2017,11,30,14
    

    이번 이용하는 출력 데이터(out11)를 크롤링한 스키마 정보





    Athena의 데이터 내용 확인





    Athena의 데이터 수 확인



    19건



    디렉토리 구성



    in8에 입력 파일, out11에 출력 파일
    $ aws s3 ls s3://test-glue00/se2/in8/
    2018-08-12 10:32:00          0 
    2018-08-12 10:34:17        691 cvlog.csv
    
    $ aws s3 ls s3://test-glue00/se2/out11/
                               PRE year=2017/
    2018-08-12 10:37:11          0 
    2018-08-12 10:52:53          0 year=2017_$folder$
    $ aws s3 ls s3://test-glue00/se2/out11/year=2017/
                               PRE month=11/
                               PRE month=12/
    2018-08-12 10:52:53          0 month=11_$folder$
    2018-08-12 10:52:53          0 month=12_$folder$
    

    Crawler Configuration options의 기본값 확인





    (언젠가 Glue 콘솔이 일본어로 되어 있었다)

    구성 옵션 확인



    크롤러가 데이터스토어의 스키마 변경을 감지하면 AWS Glue는 데이터 카탈로그에서 테이블 업데이트를 어떻게 처리합니까?



    Glue의 사용법적인 ⑭

    AWS Glue에서 데이터스토어를 삭제한 후 객체를 어떻게 처리합니까?



    요컨대 원본 데이터가 사라지면 테이블 어떻게 합니까? 라는 설정.

    선택할 수 있는 옵션은 다음 3가지입니다.

    ⑤ 데이터 카탈로그에서 테이블 삭제
    ⑥ 변경을 무시하고 데이터 카탈로그의 테이블을 변경하지 않음
    ⑦ 데이터 카탈로그에서 폐지된 테이블에 마킹

    ⑤ "데이터 카탈로그에서 테이블 삭제"



    크롤링하면 원본 데이터가 삭제되면 테이블도 삭제됩니다.

    실제 데이터 (이번이라면 S3의 데이터)를 삭제 한 후 크롤러를 실행하면 테이블 se2_in8이 삭제되었습니다.
    아래와 같이 테이블의 갱신은 제로라고 하는 표시입니다만 테이블은 사라지고 있습니다



    로그를 보면 데이터가 없기 때문에 Delete가 나옵니다.



    ⑥ "변경을 무시하고 데이터 카탈로그의 테이블을 변경하지 않음"



    크롤링 할 때 원본 데이터를 삭제해도 테이블은 그대로 변경되지 않습니다.

    실제 데이터(이번이라면 S3상의 데이터)를 삭제한 후 크롤러 실행하면 테이블 se2_in8은 남았습니다.

    표시는 ⑤와 비슷한 느낌

    ⑦ "데이터 카탈로그에서 폐지된 테이블에 마킹"



    크롤링 할 때 원본 데이터가 삭제되면 테이블에 더 이상 사용되지 않습니다.

    실제 데이터 (이번이라면 S3의 데이터)를 삭제 한 후 크롤러를 실행하면 테이블 se2_in8의 속성에 "DEPRECATED_BY_CRAWLER"가 추가됩니다.

    ※"폐지"의 곳이 아니오 -> 네가 될까 생각했지만 다르다(요 확인)



    크롤링 전 테이블 정보는 여기



    폐지에 대해 (공식 문서에서)


    AWS Glue により、Data Catalog のテーブルは元のデータストアに存在しなくなったことが分かると、
    そのテーブルは廃止されたとしてデータカタログにマークされます。
    廃止されたテーブルを参照するジョブを実行する場合、ジョブは失敗する可能性があります。
    廃止されたテーブルを参照するジョブを編集し、ソースおよびターゲットとして削除します。
    廃止されたテーブルが不要になったら削除することをお勧めします。
    

    이쪽도 부디



    AWS Glue 콘솔에서 크롤러 설정
    htps : // / cs. 아 ws. 아마존. 이 m / 그럼 _ jp / g ぅ / ぁ st / dg / c 등 w ぇ r 콘후 ぃ グラチオン. HTML

    Glue 사용법 요약
    htps : // 코 m / 피오 호 07 / ms / 32f76 아 16cbf49f9f712f

    좋은 웹페이지 즐겨찾기