Glue의 사용법 ⑮ (크롤러 (Crawler)의 Configuration option 2)
Crawler Configuration options의 효과를 살펴보기
이번에 사용할 Glue 리소스 이름
크롤러 이름
se2_in8
se2_out11
작업 이름
se2_job11
데이터
입력:in8
출력:out11
전체 흐름
이전 준비
이번에 사용하는 샘플 로그 파일(19건)
Glue의 사용법적인 ②(csv데이터를 분할한 parquet로 변환) 작업을 se2_job10, 입력 데이터를 in8, 출력 데이터를 out11로 사용합니다.
위에서 수행 된 프로세스는 다음 CSV 파일을 year, month, day, hour로 분할합니다.
원본 CSV 파일 cvlog.csvdeviceid,uuid,appid,country,year,month,day,hour
iphone,11111,001,JP,2017,12,14,12
android,11112,001,FR,2017,12,14,14
iphone,11113,009,FR,2017,12,16,21
iphone,11114,007,AUS,2017,12,17,18
other,11115,005,JP,2017,12,29,15
iphone,11116,001,JP,2017,12,15,11
pc,11118,001,FR,2017,12,01,01
pc,11117,009,FR,2017,12,02,18
iphone,11119,007,AUS,2017,11,21,14
other,11110,005,JP,2017,11,29,15
iphone,11121,001,JP,2017,11,11,12
android,11122,001,FR,2017,11,30,20
iphone,11123,009,FR,2017,11,14,14
iphone,11124,007,AUS,2017,12,17,14
iphone,11125,005,JP,2017,11,29,15
iphone,11126,001,JP,2017,12,19,08
android,11127,001,FR,2017,12,19,14
iphone,11128,009,FR,2017,12,09,04
iphone,11129,007,AUS,2017,11,30,14
이번 이용하는 출력 데이터(out11)를 크롤링한 스키마 정보
Athena의 데이터 내용 확인
Athena의 데이터 수 확인
19건
디렉토리 구성
in8에 입력 파일, out11에 출력 파일
$ aws s3 ls s3://test-glue00/se2/in8/
2018-08-12 10:32:00 0
2018-08-12 10:34:17 691 cvlog.csv
$ aws s3 ls s3://test-glue00/se2/out11/
PRE year=2017/
2018-08-12 10:37:11 0
2018-08-12 10:52:53 0 year=2017_$folder$
$ aws s3 ls s3://test-glue00/se2/out11/year=2017/
PRE month=11/
PRE month=12/
2018-08-12 10:52:53 0 month=11_$folder$
2018-08-12 10:52:53 0 month=12_$folder$
Crawler Configuration options의 기본값 확인
(언젠가 Glue 콘솔이 일본어로 되어 있었다)
구성 옵션 확인
크롤러가 데이터스토어의 스키마 변경을 감지하면 AWS Glue는 데이터 카탈로그에서 테이블 업데이트를 어떻게 처리합니까?
Glue의 사용법적인 ⑭
AWS Glue에서 데이터스토어를 삭제한 후 객체를 어떻게 처리합니까?
요컨대 원본 데이터가 사라지면 테이블 어떻게 합니까? 라는 설정.
선택할 수 있는 옵션은 다음 3가지입니다.
⑤ 데이터 카탈로그에서 테이블 삭제
⑥ 변경을 무시하고 데이터 카탈로그의 테이블을 변경하지 않음
⑦ 데이터 카탈로그에서 폐지된 테이블에 마킹
⑤ "데이터 카탈로그에서 테이블 삭제"
크롤링하면 원본 데이터가 삭제되면 테이블도 삭제됩니다.
실제 데이터 (이번이라면 S3의 데이터)를 삭제 한 후 크롤러를 실행하면 테이블 se2_in8이 삭제되었습니다.
아래와 같이 테이블의 갱신은 제로라고 하는 표시입니다만 테이블은 사라지고 있습니다
로그를 보면 데이터가 없기 때문에 Delete가 나옵니다.
⑥ "변경을 무시하고 데이터 카탈로그의 테이블을 변경하지 않음"
크롤링 할 때 원본 데이터를 삭제해도 테이블은 그대로 변경되지 않습니다.
실제 데이터(이번이라면 S3상의 데이터)를 삭제한 후 크롤러 실행하면 테이블 se2_in8은 남았습니다.
표시는 ⑤와 비슷한 느낌
⑦ "데이터 카탈로그에서 폐지된 테이블에 마킹"
크롤링 할 때 원본 데이터가 삭제되면 테이블에 더 이상 사용되지 않습니다.
실제 데이터 (이번이라면 S3의 데이터)를 삭제 한 후 크롤러를 실행하면 테이블 se2_in8의 속성에 "DEPRECATED_BY_CRAWLER"가 추가됩니다.
※"폐지"의 곳이 아니오 -> 네가 될까 생각했지만 다르다(요 확인)
크롤링 전 테이블 정보는 여기
폐지에 대해 (공식 문서에서)
AWS Glue により、Data Catalog のテーブルは元のデータストアに存在しなくなったことが分かると、
そのテーブルは廃止されたとしてデータカタログにマークされます。
廃止されたテーブルを参照するジョブを実行する場合、ジョブは失敗する可能性があります。
廃止されたテーブルを参照するジョブを編集し、ソースおよびターゲットとして削除します。
廃止されたテーブルが不要になったら削除することをお勧めします。
이쪽도 부디
AWS Glue 콘솔에서 크롤러 설정
htps : // / cs. 아 ws. 아마존. 이 m / 그럼 _ jp / g ぅ / ぁ st / dg / c 등 w ぇ r 콘후 ぃ グラチオン. HTML
Glue 사용법 요약
htps : // 코 m / 피오 호 07 / ms / 32f76 아 16cbf49f9f712f
Reference
이 문제에 관하여(Glue의 사용법 ⑮ (크롤러 (Crawler)의 Configuration option 2)), 우리는 이곳에서 더 많은 자료를 발견하고 링크를 클릭하여 보았다
https://qiita.com/pioho07/items/4a5ed0be404eea166c24
텍스트를 자유롭게 공유하거나 복사할 수 있습니다.하지만 이 문서의 URL은 참조 URL로 남겨 두십시오.
우수한 개발자 콘텐츠 발견에 전념
(Collection and Share based on the CC Protocol.)
deviceid,uuid,appid,country,year,month,day,hour
iphone,11111,001,JP,2017,12,14,12
android,11112,001,FR,2017,12,14,14
iphone,11113,009,FR,2017,12,16,21
iphone,11114,007,AUS,2017,12,17,18
other,11115,005,JP,2017,12,29,15
iphone,11116,001,JP,2017,12,15,11
pc,11118,001,FR,2017,12,01,01
pc,11117,009,FR,2017,12,02,18
iphone,11119,007,AUS,2017,11,21,14
other,11110,005,JP,2017,11,29,15
iphone,11121,001,JP,2017,11,11,12
android,11122,001,FR,2017,11,30,20
iphone,11123,009,FR,2017,11,14,14
iphone,11124,007,AUS,2017,12,17,14
iphone,11125,005,JP,2017,11,29,15
iphone,11126,001,JP,2017,12,19,08
android,11127,001,FR,2017,12,19,14
iphone,11128,009,FR,2017,12,09,04
iphone,11129,007,AUS,2017,11,30,14
$ aws s3 ls s3://test-glue00/se2/in8/
2018-08-12 10:32:00 0
2018-08-12 10:34:17 691 cvlog.csv
$ aws s3 ls s3://test-glue00/se2/out11/
PRE year=2017/
2018-08-12 10:37:11 0
2018-08-12 10:52:53 0 year=2017_$folder$
$ aws s3 ls s3://test-glue00/se2/out11/year=2017/
PRE month=11/
PRE month=12/
2018-08-12 10:52:53 0 month=11_$folder$
2018-08-12 10:52:53 0 month=12_$folder$
(언젠가 Glue 콘솔이 일본어로 되어 있었다)
구성 옵션 확인
크롤러가 데이터스토어의 스키마 변경을 감지하면 AWS Glue는 데이터 카탈로그에서 테이블 업데이트를 어떻게 처리합니까?
Glue의 사용법적인 ⑭
AWS Glue에서 데이터스토어를 삭제한 후 객체를 어떻게 처리합니까?
요컨대 원본 데이터가 사라지면 테이블 어떻게 합니까? 라는 설정.
선택할 수 있는 옵션은 다음 3가지입니다.
⑤ 데이터 카탈로그에서 테이블 삭제
⑥ 변경을 무시하고 데이터 카탈로그의 테이블을 변경하지 않음
⑦ 데이터 카탈로그에서 폐지된 테이블에 마킹
⑤ "데이터 카탈로그에서 테이블 삭제"
크롤링하면 원본 데이터가 삭제되면 테이블도 삭제됩니다.
실제 데이터 (이번이라면 S3의 데이터)를 삭제 한 후 크롤러를 실행하면 테이블 se2_in8이 삭제되었습니다.
아래와 같이 테이블의 갱신은 제로라고 하는 표시입니다만 테이블은 사라지고 있습니다
로그를 보면 데이터가 없기 때문에 Delete가 나옵니다.
⑥ "변경을 무시하고 데이터 카탈로그의 테이블을 변경하지 않음"
크롤링 할 때 원본 데이터를 삭제해도 테이블은 그대로 변경되지 않습니다.
실제 데이터(이번이라면 S3상의 데이터)를 삭제한 후 크롤러 실행하면 테이블 se2_in8은 남았습니다.
표시는 ⑤와 비슷한 느낌
⑦ "데이터 카탈로그에서 폐지된 테이블에 마킹"
크롤링 할 때 원본 데이터가 삭제되면 테이블에 더 이상 사용되지 않습니다.
실제 데이터 (이번이라면 S3의 데이터)를 삭제 한 후 크롤러를 실행하면 테이블 se2_in8의 속성에 "DEPRECATED_BY_CRAWLER"가 추가됩니다.
※"폐지"의 곳이 아니오 -> 네가 될까 생각했지만 다르다(요 확인)
크롤링 전 테이블 정보는 여기
폐지에 대해 (공식 문서에서)
AWS Glue により、Data Catalog のテーブルは元のデータストアに存在しなくなったことが分かると、
そのテーブルは廃止されたとしてデータカタログにマークされます。
廃止されたテーブルを参照するジョブを実行する場合、ジョブは失敗する可能性があります。
廃止されたテーブルを参照するジョブを編集し、ソースおよびターゲットとして削除します。
廃止されたテーブルが不要になったら削除することをお勧めします。
이쪽도 부디
AWS Glue 콘솔에서 크롤러 설정
htps : // / cs. 아 ws. 아마존. 이 m / 그럼 _ jp / g ぅ / ぁ st / dg / c 등 w ぇ r 콘후 ぃ グラチオン. HTML
Glue 사용법 요약
htps : // 코 m / 피오 호 07 / ms / 32f76 아 16cbf49f9f712f
Reference
이 문제에 관하여(Glue의 사용법 ⑮ (크롤러 (Crawler)의 Configuration option 2)), 우리는 이곳에서 더 많은 자료를 발견하고 링크를 클릭하여 보았다
https://qiita.com/pioho07/items/4a5ed0be404eea166c24
텍스트를 자유롭게 공유하거나 복사할 수 있습니다.하지만 이 문서의 URL은 참조 URL로 남겨 두십시오.
우수한 개발자 콘텐츠 발견에 전념
(Collection and Share based on the CC Protocol.)
AWS Glue により、Data Catalog のテーブルは元のデータストアに存在しなくなったことが分かると、
そのテーブルは廃止されたとしてデータカタログにマークされます。
廃止されたテーブルを参照するジョブを実行する場合、ジョブは失敗する可能性があります。
廃止されたテーブルを参照するジョブを編集し、ソースおよびターゲットとして削除します。
廃止されたテーブルが不要になったら削除することをお勧めします。
Reference
이 문제에 관하여(Glue의 사용법 ⑮ (크롤러 (Crawler)의 Configuration option 2)), 우리는 이곳에서 더 많은 자료를 발견하고 링크를 클릭하여 보았다 https://qiita.com/pioho07/items/4a5ed0be404eea166c24텍스트를 자유롭게 공유하거나 복사할 수 있습니다.하지만 이 문서의 URL은 참조 URL로 남겨 두십시오.
우수한 개발자 콘텐츠 발견에 전념 (Collection and Share based on the CC Protocol.)