glue - 훌륭한 개발자 블로그

AWS Glue DataBrew에서 Redshift에 연결할 때의 주의 사항

AWS Glue DataBrew는 AWS에서 제공하는 데이터 준비 서비스입니다. 보안 그룹 자체 참조 설정 DataBrew 연결은 AWS Glue 연결과 동일합니다. VPC의 리소스에 연결하려면 연결 설정을 통해 지불한 ENI에 연결된 보안 그룹에 자체 참조 규칙이 설정되어 있어야 합니다. 자체 참조 규칙은 다음과 같이 소스에 자체 보안 그룹이 설정된 규칙을 의미합니다. 모든 TCP 포트에 ...

DataBrewglueredshiftAWS

AWS 환경에서 분석 기반 구축의 작은 이야기

엑사이트의 L&C 사업부에서는 온프레 환경에서 클라우드 환경으로 순차적으로 이행하고 있습니다. 여기에 두 가지 옵션이 있습니다. - ① 온프레 오라클 → AWS 오라클 - ② 온프레 오라클 → AWS PosgreSQL 표제대로 분석 기반에 대해 이야기하고 싶으므로 AWS 환경의 RDS(Oracle/PostgreSQL)에서 어떻게 분석 기반을 구축하는지 소개하고 싶습니다. 목표는 RDS에서 R...

오라클glueAWS

AWS Glue에서 pg8000 driver를 사용하여 PostgreSQL의 RDS 인스턴스에 연결

AWS Glue의 스크립트에서 DynamicFrameWriter를 사용하여 할 수 있는 것보다 좀 더 세세한 일을 하고 싶었기 때문에, PostgreSQL의 RDS 인스턴스에 Python의 라이브러리로 접속하고 싶었다. 그 절차 참고. Glue에서는 pure-Python 라이브러리 만 사용할 수 있습니다. 예를 들어 pandas와 같은 C 라이브러리는 지원되지 않습니다. 그래서 pg8000을...

pg8000RDSgluePostgreSQLAWS

Glue의 사용법적인 ㊳(WorkerType이란)

공식 문서는 이쪽 "작업 추가"를 클릭 작업 속성에서 "보안 설정 ...."을 클릭 "Standard", "G.1X", "G2.X" 중에서 선택할 수 있습니다. Standard:4vCPU, 16GB 메모리, 2Executor(예전까지) G.1X : 4vCPU, 16GB 메모리, 1Executor, 64GB 디스크 (예 : Executor1) G.2X:8vCPU, 32GB 메모리, 1Execu...

스파크glueAWS

Glue의 사용법 ㊲ (GlueDataCatalog 테이블에서 Spark SQL 쿼리를 직접 실행)

공식 문서는 이쪽 입력 데이터는 이쪽 cvlog 데이터베이스: se2 표: se2_in0 작업 이름: se2_job22 작업 매개 변수의 키에 "--enable-glue-datacatalog", 가치에 아무것도 넣지 않습니다 입력하십시오. 이제 본 기능이 활성화됩니다. ※DevEndpoint의 경우도 마찬가지인데 이 설정 개소를 찾을 수 없다・・ 아래 코드 붙여넣기 실행 se2_job22 C...

스파크glueAWS

Glue의 사용법 ㉘ (DataFrame에서 데이터로드)

작업 내용 csv 파일을 parket으로 변환합니다. ※" "(이후 ①이라고만 씁니다)와 같은 처리입니다. 데이터 입력 및 출력 부분을 DynamicFrame에서 DataFrame으로 변경합니다. 작업 이름 se2_job14 IAM 롤 등은 ①을 확인해 주십시오. 이번에 사용하는 샘플 로그 파일(19건) csvlog.csv S3에 배치 적당한 Glue 작업을 작성해, 완료된 작업의 내용의 코...

Pyspark스파크glueAWS

Glue의 사용법 ㉖ (S3의 객체 목록을 취한다)

Glue의 이야기 ...라는 것은 아니지만 TIPS 적으로 Zeppelin에서 테스트. Glue에서는 개발 엔드포인트를 사용하고 Zeppelin을 사용할 수도 있습니다. 에서 작성해 보세요. 나머지는 코드입니다. test1 : input_file_name () 메소드 test2:sparksql test3:hadoop (주) collect ()는 전체 출력이므로 대량 파일이라면주의하십시오 te...

스파크glueAWS

Lake Formation의 사용법 ① (화면 열기)

관리자 사용자를 추가하라는 메시지가 나타납니다. Lake Formation에는 자체 사용자 관리 및 권한 관리 메커니즘이 있으므로 Lake Formation의 관리자 사용자를 추가해야합니다 (IAM과 함께 작동) IAM 사용자 및 IAM 역할과 연동할 수 있습니다. IAM 사용자 등을 선택하고 추가한 후 [Save]를 하여 Lake Formation을 시작할 수 있습니다. 여기서 "uehar...

AthenagluelakeformationDataLakeAWS

Glue의 사용법적인 ㉛(Glue나 Athena로 보이는 테이블을 제한한다)

사용자 A는 Glue 데이터 카탈로그의 테이블 1을 열람 조작할 수 있지만, 사용자 B는 Glue 데이터 카탈로그의 테이블 1을 열람 조작할 수 없는 등을 실현한다. 관리자 사용자는 모두 조작할 수 있고 se2_user31이라는 사용자는 열람 조작할 수 있는 테이블에 제한이 걸려 있는지 확인 Glue 데이터 카탈로그의 데이터베이스가 모두 보입니다. Glue 데이터 카탈로그의 테이블이 모두 보...

AthenaglueAWS

Glue의 choice형으로 빠진 건

온프레 출신 인프라 엔지니어, AWS 초보자를 위해 공부 중 Qiita 첫글 하고 싶은 것은 간단하고, S3의 json 데이터를 Athena로 검색하거나 가공하여 S3로 내보내고 싶습니다! 다른 부서 분들에게 최신 데이터를 제공하고 다양한 분석하고 받고 싶다! Glueのクローラーを毎日実行　　　↓Glueのテーブルを毎日更新　　　↓jobを毎日実行(不要なカラム削除）　　　↓S3にエクスポート 어느 칼럼...

AthenaglueAWS

AWS Glue 테이블에 OpenCSVSerde를 설정해 보았습니다.

athena에서 s3에서 csv 파일을 검색하고 싶습니다. glue에서 크롤러를 걸고 athena에서 검색한다고 생각합니다. s3에 배치된 입력 데이터의 각 항목이 큰 따옴표(")로 묶여 있으면 숫자 항목이 사라집니다. 입력 데이터 크롤러 실행으로 만든 테이블 athena 검색결과 ⇒ 숫자 항목인 「operationType」이 사라지고 있다 + 큰따옴표(")가 그대로 표시되어 버린다. 변경 ...

AthenaOpenCSVSerdeglueS3AWS

Glue의 사용법 ⑮ (크롤러 (Crawler)의 Configuration option 2)

크롤러 이름 se2_in8 se2_out11 작업 이름 se2_job11 데이터 입력:in8 출력:out11 Crawler Configuration option의 기본값 확인 구성 옵션 확인 AWS Glue에서 데이터스토어를 삭제한 후 객체를 어떻게 처리합니까? 이번에 사용하는 샘플 로그 파일(19건) 작업을 se2_job10, 입력 데이터를 in8, 출력 데이터를 out11로 사용합니다. ...

AthenaglueAWS

Fluentd에서 S3로 보낸 로그를 Amazon Athena에서 집계합니다. 2018-03-26

Fluentd 에서 S3 로 보낸 로그를 Amazon Athena 로 집계하는 방법을 기록합니다. 계속이지만 일부 설정을 변경합니다. <match> 에 다음 3점 추가 output_tag false output_time false S3의 키에 hostname 추가 <filter>에서 hostname을 부여하는 설정 추가 /etc/td-agent/td-agent.conf 부분 발췌 추가: %{...

AthenaS3glueAWS

Lambda에서 지정한 S3에 입출력하는 Glue를 기동시키는 이야기

작업 중에 AWS의 Glue를 사용할 기회가 있어, 그 때에 지정한 S3에서 데이터를 읽어들여, Glue로 데이터를 가공해 다른 지정한 S3 버킷에 데이터를 출력하는 것을 실시했으므로, 그 흐름 그리고 방법을 메모가 떠나두고 싶습니다. 인수 (매개 변수) 가져 오기 이번에는 Lambda에서 두 개의 인수 인 'source_path', 'out_path'를받습니다. S3에서 데이터 수신 인수로...

람다S3glueAWS

[해결됨] 접착제 보기가 오래되었습니다. 그것은 다시 생성되어야합니다

이 성가신 오류에 직면했을 때: '<your-view-name' is stale; it must be re-created This query ran against the "glue_<yours>_crawler" 대부분의 경우 솔루션은 간단합니다. 인터넷(stackoverflow 및 일부 멋진 블로그)에서 솔루션을 거의 찾을 수 없음에도 불구하고 presto 메타데이터에서 열 순서를 검토해 보...

glueaws

AWS Glue 테스트 환경을 로컬로 구축

AWS의 Lambda가 로컬 환경에서 개발할 수 있기 때문에, Glue도 할 수 없을까라고 생각해 보았는데, AWS로부터 라이브러리가 제공되고 있었습니다. 처음에는 개별적으로 인스톨하고의 이용을 시도했습니다만, 잘 되지 않고… 구구한 곳, Docker로 단번에 작성하는 순서를 발견. 로컬 개발 환경의 구축에 성공했습니다. CentOs 7.6 Docker 19.03.2 Docker 파일 만들기...

centos7CentOSglueAWS

접착제 – Athena 사용자 지정 출력 고정 파일 수

파티션 절만 사용하면 S3 버킷에 1MB 미만인 파일이 너무 많아 쿼리 속도에 영향을 미치고 더 큰 파일로 만들고 싶습니다. 해결 방법 1: Athena "bucketing" 방법을 사용하여 출력 파일 수를 사용자 지정합니다. 자세한 내용은 이 AWS 블로그를 참조하십시오. 그러나 버킷팅을 사용하는 경우 한 가지 단점이 있습니다. 버킷 테이블은 INSERT INTO 쿼리를 지원하지 않습니다....

glueaws

AWS Glue DataBrew 시도

AWS 측은 Glue DataBrew를 "코드를 작성하지 않아도 데이터를 정리하고 규범화할 수 있는 가시적 데이터 준비 도구"라고 밝혔다. 간단하게 말하면 지금까지 데이터 분석 등에서 진행된 예처리를 코드 없이 진행할 수 있고 서버 설정이 없고 인프라 시설의 관리도 AWS에 맡길 수 있다. 예제를 선택한 후 데이터 세트 이름을 설정했습니다. 원본 데이터 세트에 적용할 수 있는 변환 프로세스를...

DataBrewAWSglue

AWS Lake Formation의 개요를 그래픽 및 용어로 정리

AWS에서 데이터 지연을 구축하고 운용하기 위한 관리 서비스 IAM과 달리 데이터 지연 전용 액세스 제어를 위한 별도의 권한 관리 기구 AWS Glue는 보안 및 권한 관리를 용이하게 하기 위해 실제 데이터도 저장하는 것으로 인식됨 IAM과 Glue를 개별적으로 사용하여 데이터 호수를 구축하고 운용하는 것보다 데이터 호수를 처리하기 쉽다 Lake Fromation의 뿌리는 AWS Glue로 ...

lakeformationAWSDataLakeglue