dataengineering - 훌륭한 개발자 블로그

Ansible 및 Ubuntu 22.04에 Ansible을 설치하는 방법을 알아보세요.

여기서는 Ubuntu 22.04에 Ansible을 설치하는 방법을 배우고 Ansible에 대해 자세히 알아보도록 하겠습니다. Ansible은 처음에 RedHat에서 개발한 오픈 소스 인프라 자동화 도구를 말하며 코드형 인프라와 관련된 모든 종류의 문제를 해결하는 데 사용됩니다. Ansible을 사용하면 Virtual Private Cloud(VPC) 및 선호하는 클라우드 공급자와 같은 기존 ...

tutorialdataengineeringinstall

Hudi 사용 시 실용적인 비즈니스 문제 해결: LakeSoul은 null 필드 비재정의 의미 체계를 지원합니다.

최근 R&D 팀은 사용자가 Hudi를 사용하여 실용적인 비즈니스 문제를 해결하도록 도왔습니다. 비즈니스 프로세스는 업스트림 시스템이 온라인 DB 테이블에서 원본 데이터를 JSON 형식으로 추출하여 Kafka에 쓰는 것입니다. 데이터는 Hudi를 사용하여 업데이트 및 집계되고 분석을 위해 다운스트림 데이터베이스로 전송됩니다. 후속 데이터 업데이트에서는 업데이트 없이 누락된 필드 값 대신 최신 ...

bigdatadatabaseopensourcedataengineering

ELT 파이프라인에서 개인 식별 정보(PII) 해시

개인 식별 정보(PII)는 다음과 같이 정의됩니다. 정보가 적용되는 개인의 신원을 직접 또는 간접적인 수단으로 합리적으로 추론할 수 있도록 하는 정보의 표현. 유럽 연합에 있는 사람들의 PII를 수집, 사용 또는 저장하는 경우 작업 을 준수해야 하므로 고객의 개인 데이터를 보호해야 합니다. 물론 파일 저장소/데이터베이스에 추가하기 전에 데이터에서 PII를 삭제하는 것에 대해 생각할 수 있지만...

dataengineeringdatabasepython

Prefect 작업 실패 시 Jira 티켓 만들기

Prefect는 Prefect 실행을 모니터링하고 관리할 수 있는 훌륭한 UI를 제공합니다. 그리고 아침에 노트북을 열어 보면 온통 녹색으로 보이는 것보다 더 좋은 것은 없습니다. 그러나 안타깝게도 항상 그런 것은 아니며 조직의 워크플로에 따라 다르지만 일반적으로 실행에서 문제를 해결하기 전에 Jira에서 버그 티켓을 만들어야 합니다. 작업에 jira_notifier를 통합하여 이를 자동화해...

dataengineeringpython

CDC의 빠른 사용: Lakesoul의 새로운 데모를 통해 환경을 보다 쉽게 설정할 수 있습니다.

변경 데이터 캡처(CDC)는 데이터베이스에서 데이터 변경 사항을 캡처하는 데 사용되는 데이터베이스 지향 기술로 데이터 동기화, 데이터 배포 및 데이터 수집에 적용됩니다. [Lakesoul]( CDC 기술은 데이터 일관성 및 실시간을 보장하기 위해 소비 로그를 구현할 수 있는 로그 기반 CDC 유형에 속합니다. Mysql 및 Oracle과 같은 관계형 데이터베이스의 추가, 삭제 및 변경 작업은...

bigdatasparkopensourcedataengineering

🎄 12일 간의 SMT 🎄 - 8일 차: TimestampConverter

단일 메시지 변환을 사용하면 Kafka 메시지의 타임스탬프 필드로 작업할 수 있습니다. 문자열을 기본 유형(또는 또는 )과 Unix epoch로 변환할 수 있으며 그 반대도 마찬가지입니다. 이것은 Kafka에 수집된 데이터가 타임스탬프로 올바르게 저장되었는지 확인하는 데 매우 유용하며(있는 경우) 타임스탬프를 선택한 문자열 형식으로 싱크 커넥터에 쓸 수도 있습니다. TimestampConve...

twelvedaysofsmtapachekafkadataengineeringkafkaconnect

사용자 코드 배포가 있는 Dagster(gRPC)

주로 우리가 서로 다른 배치/서비스에서 코드를 분리할 수 없기 때문이다.이와 동시에 Dagster는 이미 성숙했다(Github에는 2.2k개의 별이 있다!)그에 따른 것은 사용자 코드 배치다. 사용자 코드 배포를 사용하면 파이프 코드를 Dagit 이미지와 분리할 수 있습니다.이것은 전체 Dagster 시스템을 재배치할 필요가 없이 사용자 코드를 업데이트할 수 있다는 것을 의미합니다! 모든 배...

dagsterkubernetesdataengineeringetl

ETL com Apache Airflow、Web Scraping、AWS S3、Apache Spark e Redshift | Parte 1

기류를 이용하는 과정에서 가장 중요한 것은 통풍을 실현하는 것이다.사이트 구축 은 아름다운 사이트로 영화 사이트의 추가 정보를 제공한다.csv e enviar para o AWS S3.프로젝트의 일부에서 iremos Realizer는 통합된 기류 구성 요소이고 Apache Spark는 실현 과정이다. 이 세 편의 주요 내용은 아바리아 영화, 레토레스 영화와 알칸 영화이다.파젤의 전략에 따르면...

awsdataengineeringdatascienceetl

kafkacat 및 visidata를 사용하여 Apache Kafka에서 빠른 데이터 프로파일링

ksqlDB는 Apache Kafka에서 데이터 스트림을 처리하고 분석하기 위한 매우 강력한 도구입니다. 그러나 때때로 Kafka의 주제에서 데이터를 프로파일링하는 빠른 방법이 필요할 수 있습니다. 데이터에 대해 GROUP BY를 수행하기 위해 함께 파이프라인으로 연결된 복잡한(그러나 효과적인) bash 명령 세트가 있는 I . 우리는 이를 처리하고 파이프라인을 구축할 것이며 작업 중인 데이...

datasciencedatavizapachekafkadataengineering

새로운 통합 스트리밍 및 배치 테이블 스토리지 솔루션은 iceberg/hudi/delta lake와 비슷하지만 몇 가지 새로운 기능이 있습니다.

나는 Iceberg, Hudi 및 Detalake와 유사하지만 upsert, 메타 데이터 관리 등과 같은 몇 가지 새로운 기능이 있는 Github에서 Lakesoul이라는 새로운 통합 스트리밍 및 배치 테이블 스토리지 솔루션을 보았습니다. 그러나 Flink가 지원되지 않는 등의 몇 가지 단점도 있습니다. 그러나 로드맵은 Flink 통합이 진행 중임을 보여줍니다. 전에 Lakesoul을 사용해...

opensourcebigdataprogrammingdataengineering

변경 데이터 캡처로 업스트림 데이터 변경 처리

한 달 후 Alice에서 Carol로 고객 이름이 변경되었음을 깨닫고 지난 한 달 동안 잘못된 데이터를 사용했습니다.이런 데이터가 정확하지 않으면 우리의 데이터 분석과 기계 학습 모델에 영향을 줄 수 있다.그렇다면, 우리는 어떻게 그것을 검측하고, 어떻게 자동화를 실현합니까? 대다수의 속성은 모두 자명하지 않다.oldKeyNames와 oldKeyValues는 UPDATE/DELETE 조회에 ...

databasedatapipelinedataengineering

런 캐싱으로 데이터 웨어하우스 비용 절감

아이디어는 '증분' 테이블 지원과 같이 엄격하게 제어되는 몇 가지 예외를 제외하고 동일한 입력(프로젝트 코드)이 주어졌을 때 최종 ELT 파이프라인을 가능한 한 재현할 수 있도록 하는 것입니다. Dataform 파이프라인의 코드에 대해 이런 식으로 추론할 수 있다는 것은 Dataform 프레임워크에 몇 가지 멋진 기능을 구축할 수 있는 기회를 제공합니다. 입력 데이터가 한 번의 실행과 다음 ...

eltpipelineetldataengineering

카프카에 XML 데이터 흡수 - 소개

우리 기초부터 시작합시다.카프카의 정보는 바이트일 뿐이니 우리가 원하는 물건을 넣을 수 있다.우리는 XML을 카프카 테마에 저장할 수 있습니다. 현재 카프카 테마에 XML이 포함되어 있습니다.그러나 우리는 이 데이터를 어떻게 처리하기를 원합니까?Google 소비 프로그램이 정말로 XML 흐름을 원하지 않는다면, XML 데이터와 모델을 카프카 소비자들이 실제 모델을 읽고 접근할 수 있는 형식으...

xmlapachekafkadataengineeringdataintegration