Azure DataFactory로 기존 데이터 손쉽게 캡처

9221 단어 AzureDataFactoryAzure
오늘 나는 다음 해커가 사용하는 Azure DataFactory를 만졌다.기본적으로 튜토리얼과 같은 구성이지만 떠내려간 부분도 모두 검증됐다.

Azure Factory는 클라우드 기반의 데이터 통합 서비스로 데이터 구동의 작업 흐름을 클라우드에서 사례 분석을 하고 데이터를 자동으로 이동할 수 있다.
각종 데이터 원본에서 데이터를 추출하여 동기화하거나 데이터 원본으로 이동합니다.
"기본적"https://docs.microsoft.com/en-us/azure/data-factory/data-factory-copy-data-wizard-tutorial단계.

사전 준비


자습서와 같이 스토리지 계정이 생성되고 Azure에 SQL 데이터베이스가 생성되었습니다.
또한 테이블도 생성되었습니다.표 제작은 Visual Studio에서 수행됩니다.
CREATE TABLE [dbo].[emp] (
    [ID]        INT          IDENTITY (1, 1) NOT NULL,
    [FirstName] VARCHAR (50) NULL,
    [LastName]  VARCHAR (50) NULL
);


GO
CREATE CLUSTERED INDEX [IX_emp_ID]
    ON [dbo].[emp]([ID] ASC);
SQL 데이터베이스에 익숙하지 않습니다.참고로 집단/비집단 인덱스가 존재합니다.분류는 메인 키 등에 사용되며, 정렬되고 저장된 형식이며, 테이블에는 하나밖에 없습니다.비록 여러 개의 비집단이 있지만 B-Tree 인덱스 유형의 저장 방법을 채택했다.O(logN) 주문 유형별로 검색할 수 있습니다.
Clustered and Nonclustered Indexes Described
그렇다면 책상이 개면 데이터 공장으로 동작을 만들어보자.

스토리지에 데이터 저장


이번에는 다음과 같은 텍스트 데이터가 있습니다.
John, Doe
Jane, Doe
이게 emp야.txt에 저장합니다.계정을 저장하는 Blob 저장소에 업로드합니다.
참고로 Azure의 Blob Storage 작업은 Micirosoft Azure Storage Explorer 있습니다.Linux와 Mac을 위한 것도 있습니다.이 녀석으로 텍스트 파일을 올리다.여기에서 zip 압축,emp를 진행합니다.나도 zip 해줄게.

Azure Data Factory 구성


Azure DataFactory에서 복제 데이터 실행


이번에는 여러 가지 방법이 있는데, 우선 간단한 데이터 복제를 사용해 보자.Portal 방법, PowerShell 및 C# 설치 방법, ARM 사용 방법 등이 있습니다.

작업 구성


여기에 임무를 정의했다.한 번만 마이그레이션하고 동기화하는 방법을 선택할 수 있습니다.여기서 동기화 방법을 선택하면 시작일을 과거 날짜로 하고 종료일을 오늘의 지연 시간으로 설정합니다.

데이터 소스 지정


데이터 원본.이번에는 메모리 회계니까 그걸 지정해.각종 데이터 원본에서 데이터를 얻을 수 있다.어떤 데이터 원본을 사용할 수 있는지는 Data movement activities 에 달려 있다.Azure 외에도 아마존 Redshift, S3, Oracle, SAP, Sybase, Teradata 등 각종 데이터 원본에서 얻을 수 있다.

스토리지 계정 설정


여기에는 이전에 만든 저장 계정이 지정되어 있습니다.

데이터 가져오기


그런 다음 파일을 선택할 수 있습니다.일반적인 순수한 텍스트도 가능하지만 압축 형식도 가능하다.emp.나는 zip을 선택해 보았다.

압축 형식을 선택할 수 있기 때문에 ZipDeflate를 선택하여 Zip의 내용에서 가져옵니다.참고로 일반 텍스트는 NONE를 선택합니다.

파일 형식을 지정합니다.어느 정도는 자동으로 검출된다.원하는 형식으로 식별할 수 있습니다.
이렇게 받아주세요.

출력 데이터 소스 지정


그런 다음 SQL 데이터베이스를 출력 대상으로 설정합니다.

데이터베이스 설정이곳에는 아무런 어려움이 없다.

어떤 표로 출력할지 선택할 수도 있습니다.간단하다.

데이터 중복 방지


Tips는 하나뿐입니다.일반적으로 이 작업을 수행하면 여러 작업이 수행되므로 데이터가 중복 기록됩니다.나 이거 피하고 싶지?복구 가능 설정을 설정할 수 있습니다.여기서 SQL에 대한 사용자 정의 스크립트를 설명합니다.
이번에는 데이터 중복 제거를 방지하기 위해 SQL에 대해 설명합니다.쓰기 방법은 다음 블로그에서 얻은 것이다.주 키가 없는 테이블에서 중복 기록을 삭제하다 .솔직히 말하면, 나는 SQL 데이터베이스의 SQL에 익숙하지 않기 때문에 반드시 배워야 한다.이것은 또 다른 기회다.
WITH [duplicate_record] AS (
    SELECT
    ROW_NUMBER() OVER (PARTITION BY
            [FirstName]
            ,[LastName]
            ORDER BY
            [FirstName]) AS [SEQ]
    ,[FirstName]
    ,[LastName]
    FROM
    [dbo].[emp]
)
DELETE FROM
    [duplicate_record]
    WHERE
    [SEQ] > 1;

병렬 실행 지정

실행하면 확인 화면이 나와요.

작업 수행


실행!

깨끗하고 중복된 데이터를 없애고 데이터를 저장했다.

끝내다


나는 가장 간단한 절차를 밟아 보았는데, 깊이 파면 재미있는 기술인 것 같다.평소 격투하던 Istio와 같은 갓 태어난 것들에 비하면 움직이기 쉬워요!

좋은 웹페이지 즐겨찾기