0부터 배치 및 진화 데이터 디렉터리까지!

11949 단어 bigdata datacatalog database dataops

어느 것이소스 오픈 대안?구현 방법도전과 더!
본 출판물은'일부'기구가 이미 자신의 데이터를 내부 제품으로 이해하고 이를 내부 제품으로 중시하여 단기간 내에 시장과 관련된 제품을 향상시키고 감정하며 구분하기 시작했음을 밝히는 데 목적을 두고 있다.불행하게도 이 회사는 내부에서 모든 업무 분야에서 자신의 구조를 세웠다. 표준이 없고 품질이나 기본적인 위생 시설이 없으며 오래되고 느린 방식으로 나누어 주는 경우가 많았다.'감비아인'의 실제 데이터로 가득 찬 빈민가였다.
이런 혼란 상황에서 상업인들이 어떤 방식으로 소외되는 것은 흔히 볼 수 있는 일이다. 그들은 특정한 '소프트웨어'나 해결 방안의 속도가 느리거나 전체 지역에 어떤 정보가 존재하지 않는다고 확신한다.
어떻게 이런 상황을 바꿉니까?어떻게 데이터의 그림자를 피합니까?"판매"정보 방지?
또 다른 방법은 이미 존재하는 내용을 이해하고 조직, 사전과 편목을 나누어 줄 사용 가능한 데이터베이스를 구축하며 데이터에 대한 조직 문화, 즉 데이터 센터를 창설하는 기회를 만드는 것이다.
LinkedIn 엔지니어의 견해에 따르면 데이터 디렉터리와 필요한 메타데이터 샘플을 사용하는 사례는 다음과 같다.

검색 및 발견: 데이터 모드, 필드, 표시, 사용 정보.

액세스 제어: 액세스 제어 그룹, 사용자, 정책.

데이터 답습: 파이프 실행, 조회, API 등록, API 모드.

규정 준수: 데이터 개인 정보 보호 분류법/규정 준수 주석 범주.

데이터 관리: 데이터 원본 설정, 섭취 설정, 보존 설정, 데이터 제거 정책(예를 들어 GDPR에 대한'잊혀진 권리'), 데이터 내보내기 정책(예를 들어 GDPR에 대한'접근권').

인공지능 해석, 재현성: 자원 정의, 모델 정의, 교육 집행, 문제 진술.

데이터 조작: 파이프 운행, 처리의 데이터 구역, 데이터 통계.

데이터 품질: 데이터 품질 규칙 정의, 규칙 집행 결과, 데이터 통계.

끊임없이 증가하는 시장 수요에 주의하여 세계 각지의 많은 지역사회와 회사들이 Airbnb의 Dataportal, 넷플릭스의 Metacat, Uber의 Databook, LinkedIn의 DataHub, Lyft의 Amundsen, Spotify의 Lexikon, Qlik Data Catalog 등 각종 해결 방안을 개발할 것이다.
이러한 여러 가지 문제 중에서 주로 소스 해결 방안을 채택하고 사용하는 지역사회와 회사에서 돋보이는 것은 리프트의 아몬슨과 링크드 인의 DataHub이다.
Amundsen은 DataHub 이전에 발표된 솔루션으로 LF AI 재단에 포함되었기 때문에 많은 회사들이 생산 환경에서 사용하고 있는 대형 커뮤니티를 얻었다.
DataHub을 보면 링크드인이 오픈소스 프로젝트에서 성공한 기록이 카프카의 사례처럼 중복되고 있음을 알 수 있다.처음 몇 달 동안, 이 프로젝트는 방대한 지역 사회를 얻었고, 많은 회사들, 심지어 금융 기관들도 이 프로젝트를 채용하여 적극적으로 기부를 했다.

경험, 통합된 수량과 풍부한 문서에 대해 저는 DataHub을 더 좋아합니다. 당신은요?

DataHub is an open source metadata platform for the modern data stack.

건축하다

그 구조는 섭취, 서비스와 전단으로 나눌 수 있다.

섭취 구조:

HTTP나 Kafka를 통해 메모리층에 전송되는 메타데이터를 추출하기 위해 서로 다른 원본에 삽입할 수 있는 파이톤 촬영 시스템이 생겼다. 이 파이프는 하나의 기류에 집적되어 섭취를 계획하거나 추적하는 데 사용된다.
서비스 아키텍처:

메타데이터는 문서 저장소에 저장됩니다. (MySQL, PostgreSQL 등 RDBMS일 수도 있고,Couchbase 등 키 값으로 저장할 수도 있습니다.)
DataHub에는 메타데이터 커밋 로그 흐름(META Commit Log Stream, MAE)이 있습니다. 메타데이터가 변경되었는지 확인하고 변경 사항에 대해 실시간 업데이트 반응을 일으키는 서비스입니다.

프런트엔드 아키텍처: React 어플리케이션 + 그래픽 QL+ 이미지:

프런트엔드는 React를 사용하여 수행됩니다.

구성 가능성: 배포 조직이 요구 사항에 따라 특정 영역을 적용할 수 있도록 고객 경험을 구성해야 합니다.테마/스타일 설정, 특정 기능 표시 및 숨기기, 사용자 정의 복사본 및 로고 등의 가능성

포함

확장성: 데이터 센터 기능 확장은 가능한 한 간단해야 합니다.기존 엔티티를 확장하고 새 엔티티를 추가하는 등의 변경 작업은 최소한의 노력으로 상세 문서에 설명해야 합니다.

통합:
데이터 디렉터리로서 그의 주요 채택점 중 하나는 기존의 섭취 해결 방안의 수량이다.DataHub을 사용하면 Docker를 설치하고 Python 라이브러리를 설치하며 ingest category에 전달되는 YML 프로필을 실행하고 사용자 이름과 비밀번호 등 정보와 수신기 목적지에 접근할 수 있습니다.
통합 목록:

카프카

MySQL

Microsoft SQL Server

벌집

PostgreSQL

빨간색 이동

AWS SageMaker

눈꽃

SQL 구성 파일

초과

갑골문

연회

구글 BigQuery

AWS 아테나

AWS 접착제

델루이

SQLAlchemy

MongoDB

LDAP

LookML

Looker 계기판

파일

dbt

구글 BigQuery

카프카 연결

데이터베이스나 데이터 원본을 찾을 수 없습니다. 이것은 SQLAlchemy를 사용하여 Rest API를 사용하거나 DataHub의 내부 Kafka에서 원데이터를 가져오거나 섭취하는 대체 방법입니다.
데이터베이스, API, 카프카와의 통합 외에도 통합이 가능하며 인공지능 모델에서 정보를 검색할 수 있다.
배포:
데이터 디렉터리와 관련이 있을 때, 또 다른 문제는 어디에 설치하고 어떻게 설치하는가 하는 것이다.당신의 신분 검증은?백업 및 로그?
개인의 관심사는 항상 서로 다른 환경에서 사용할 수 있는 해결 방안을 채택한다.클라우드와 데이터 센터는 docker image, Kubernetes 환경, AWS와 GCP를 통해 로컬에 배치할 수 있다.
인증은 JaaS 인증, React를 통한 JaaS 인증, Google 인증 및 Okta 인증과 통합할 수 있습니다.로그는 원격으로 접근할 수 있는 디렉터리에 위치하고 데이터는 데이터베이스에 저장됩니다.
** 현지 시위: *

이것은 로컬 PostgreSQL 설치를 실행하고, 예시표를 만들고, DataHub을 설치하고, PostgreSQL 메타데이터를 DataHub에 섭취하는 예시입니다.이 프레젠테이션을 수행하려면 Docker, Git 및 Python을 설치해야 합니다.
Docker compose를 사용하여 PostgreSQL 배포:
docker compose를 만듭니다.yml 파일은 다음과 같습니다.

version: '3'
services:
  postgres:
    image: postgres:13.1
    healthcheck:
      test: [ "CMD", "pg_isready", "-q", "-d", "postgres", "-U", "root" ]
      timeout: 45s
      interval: 10s
      retries: 10
    restart: always
    environment:
      - POSTGRES_USER=root
      - POSTGRES_PASSWORD=password
      - APP_DB_USER=docker
      - APP_DB_PASS=docker
      - APP_DB_NAME=docker
    volumes:
      - ./db:/docker-entrypoint-initdb.d/
    ports:
      - 5432:5432

다음 명령을 실행합니다.docker-compose up
Dbeaver와 같은 데이터베이스 연결 도구를 사용하여 PostgreSQL에 액세스하고 다음 표를 작성합니다.

CREATE TABLE COMPANY(
   ID INT PRIMARY KEY     NOT NULL,
   NAME           TEXT    NOT NULL,
   AGE            INT     NOT NULL,
   ADDRESS        CHAR(50),
   SALARY         REAL,
   JOIN_DATE   DATE
);

데이터 센터 배포
Python 3.6 이상을 설치한 후 터미널에서 다음 명령을 실행합니다.

python3 -m pip install --upgrade pip wheel setuptools
python3 -m pip uninstall datahub acryl-datahub || true  
python3 -m pip install --upgrade acryl-datahubdatahub version

터미널에 DataHub CLI 설치:datahub docker quickstart
이동http://localhost:9002;사용자 이름과 비밀번호는 "datahub"이며 인용부호가 없습니다.

데이터 센터 및 PostgreSQL이 실행 중입니다.

PostgreSQL 메타데이터를 데이터 센터로 캡처하기
클론 데이터 센터 프로젝트:git clone https://github.com/linkedin/datahub.git
스크립트 캡처 폴더로 이동하려면 다음과 같이 하십시오.cd datahub/metadata-ingestion/scripts
게시물에서 메타데이터를 만듭니다.다음을 포함하는 yaml 파일:

source:
  type: postgres
  config:
    username: root
    password: password
    host_port: localhost:5432
    database: postgres
    database_alias: postgrespublic
    include_views: True
sink:
  type: "datahub-rest"
  config:
    server: "http://localhost:8080"

다음 명령을 실행합니다../datahub_docker.sh ingest -c ./metadata_ingest_from_postgres.yml위 명령을 사용하면 모든 메타데이터가 수신되고 액세스할 수 있습니다.

수집된 메타데이터를 제외하고 패턴, 테이블과 열에 대한 설명과 표시도 할 수 있다.주인의 소유권, 혈통, 주요 조회, 재산, 기타 문서 링크를 찾아라.
결론:
최초의 혼돈 데이터를 구축한 우주는 아마도 매우 복잡한 임무일 것이다.첫 번째 단계는 데이터에 대해 깊이 있게 분석하고 분류하여 관리와 정보의 질이 더 좋은 장면을 재구성하는 것이다.
이상적인 데이터 그리드 아키텍처의 비전:

DataHub은 강력한 데이터 디렉터리 솔루션으로 서로 다른 데이터베이스와 통합하는 것 외에 데이터 답습을 지원하고 인공지능 모델을 분류하기도 한다.그러나 이 해결 방안은 마법이 아니다.필드 설명과 액세스 관리 같은 데이터를 감시하고 수신할 필요가 있다.

“Without data, you’re just another person with an opinion.”, W. Edwards Deming

참조 자료:
https://medium.com/datahub-project
https://martinfowler.com/articles/data-mesh-principles.html
https://medium.com/datahub-project/data-in-context-lineage-explorer-in-datahub-a53a9a476dc4

따라와Medium:

Reference

이 문제에 관하여(0부터 배치 및 진화 데이터 디렉터리까지!), 우리는 이곳에서 더 많은 자료를 발견하고 링크를 클릭하여 보았다 https://dev.to/jlgjosue/zero-to-deployment-and-evolution-data-catalog-52b3

텍스트를 자유롭게 공유하거나 복사할 수 있습니다.하지만 이 문서의 URL은 참조 URL로 남겨 두십시오.

우수한 개발자 콘텐츠 발견에 전념 (Collection and Share based on the CC Protocol.)

STM32 CubeIDE에서 FreeRTOS 속공

명령줄 도구CURL

좋은 웹페이지 즐겨찾기

개발자 우수 사이트 수집

개발자가 알아야 할 필수 사이트 100선 추천 우리는 당신을 위해 100개의 자주 사용하는 개발자 학습 사이트를 정리했습니다