Core tana Intelligence Suite 구축(4차) - Azure Data Lake Analytics를 사용하여 빅데이터 조회 시도
배경
기존의 데이터 분석 세계에서 일반적으로 데이터 창고 등 가공(정의 모델) 상태의 데이터를 이용하여 입방체 등을 구축하는 절차를 이용하여 데이터 분석을 한다.최근 몇 년 동안 빅데이터를 처리하기 시작하면서 반드시 지정된 모델로 데이터 창고에 저축하는 방법이 아니라 매번 원시 데이터에서 좋아하는 데이터를 추출하는 방법도 생겼다.마이크로소프트 Azure는 Azure Data Lake, Azure HDInsight 등 서비스를 통해 후자의 방법을 제공했다.
이번에는 Azure Data Lake의 사용법과 독자적인 언어를 활용한 U-SQL을 분석하여 "핵심 통합 키트 구축(3차)"까지 구축하여 축적한 Azure BLOB에 저장된 데이터를 분석한다.
미리 준비한 물건
단계 설정
Azure Data Lake Analytics 준비
Azure Data Lake Analytics를 사용하기 위해서는 우선 Azure 포털에서 Azure Data Lake Analytics를 배치해야 한다.
현재 미국 동부 2 지역만 선택할 수 있습니다.
가격 수준은 종량요금제이기 때문에 조회를 집행하는 부분만 요금을 받는다.
배포가 완료되면 다음 내용이 표시됩니다.
분석 준비
데이터 Lake Analytics를 사용하려면 U-SQL이라는 새로운 언어로 질의를 작성합니다.
일반적으로 SQL 언어처럼 C#도 포함하는 강력한 쿼리 언어입니다.이곳은 그다지 상세하지 않지만, 나는 최소한의 장소까지 소개할 것이다.
이번에는 JSON 형식의 원본 파일을 읽고 조회를 통해 요약된 파일을 SQL 데이터베이스에 기록합니다.그러나 Azure 포털 화면에서 작업하는 화면에서는 JSON 형식의 파일을 직접 읽을 수 없습니다.아깝다
따라서 JSON을 처리하는 데 사용할 구성 요소를 Visual Studio에서 등록하는 프로세스입니다.
구성 요소 등록
JSON을 처리하려면 먼저 Newtosoft를 진행하십시오.Json.dll 등의 어셈블리를 Azure Data Lake에 등록해야 합니다.일반적인 C# 항목과 달리 NuGet은 사용할 수 없습니다.그래서 뉴턴소프트.Json.dll을 구축하여 Azure Data Lake에 업로드합니다.
스토리지 계정 연결
Azure Data Lake Analytics에서 Azure 스토리지 계정을 사용하려면 반드시 연관되어야 합니다.
이렇게 하면 주소 형식으로 Azure 저장 계정을 데이터 원본으로 지정할 수 있다.
질의 작성
CREATE ASSEMBLY IF NOT EXISTS [Newtonsoft.Json] FROM "assemblies/Newtonsoft.Json.dll";
CREATE ASSEMBLY IF NOT EXISTS [Microsoft.Analytics.Samples.Formats] FROM "assemblies/Microsoft.Analytics.Samples.Formats.dll";
REFERENCE ASSEMBLY [Newtonsoft.Json];
REFERENCE ASSEMBLY [Microsoft.Analytics.Samples.Formats];
//USE DATABASE [traindetail];
@json =
EXTRACT jsonString string FROM @"wasb://tyqiita@tyqiita/logs/{*}/{*}/{*}.json" USING Extractors.Text(delimiter:'\b', quoting:false);
@jsonify = SELECT Microsoft.Analytics.Samples.Formats.Json.JsonFunctions.JsonTuple(jsonString) AS rec FROM @json;
@columnized = SELECT
DateTime.Parse(rec["dc:date"]) AS date,
rec["odpt:railway"] AS railway,
rec["odpt:trainNumber"] AS trainnumber,
Double.Parse((rec["odpt:delay"] ?? "0")) AS delay,
rec["odpt:startingStation"] AS startingstation,
rec["odpt:terminalStation"] AS terminalstation,
rec["odpt:fromStation"] AS fromstation,
rec["odpt:toStation"] AS tostation,
rec["odpt:railDirection"] AS raildirection
FROM @jsonify;
OUTPUT @columnized
TO @"wasb://tyqiita@tyqiita/output/result.txt"
USING Outputters.Text();
질의 실행
데이터 Lake Analytics의 실행 프로세스를 "작업"이라고 합니다.
Visual Studio에서 작업을 제출하면 Data Lake Analytics에서 작업을 실행할 수 있습니다.
링크 세트
작성자가 작성할 때 참조하는 링크입니다.
http://sqlblog.com/blogs/jorg_klein/archive/2016/06/27/use-adlcopy-to-generate-u-sql-jobs-that-copy-data-between-azure-blob-storage-and-azure-data-lake-store.aspx
https://azure.microsoft.com/en-us/documentation/articles/data-lake-analytics-manage-use-portal/
https://azure.microsoft.com/en-us/documentation/articles/data-lake-store-copy-data-azure-storage-blob/
http://www.rcloudnetwork.com/the-cloud-in-the-news/creating-big-data-pipelines-using-azure-data-lake-and-azure-data-factory/
https://github.com/Azure/usql
https://blogs.msdn.microsoft.com/robinlester/2016/01/04/an-introduction-to-u-sql-in-azure-data-lake/
Reference
이 문제에 관하여(Core tana Intelligence Suite 구축(4차) - Azure Data Lake Analytics를 사용하여 빅데이터 조회 시도), 우리는 이곳에서 더 많은 자료를 발견하고 링크를 클릭하여 보았다
https://qiita.com/taiki_yoshida/items/2b965232045ca2abdc89
텍스트를 자유롭게 공유하거나 복사할 수 있습니다.하지만 이 문서의 URL은 참조 URL로 남겨 두십시오.
우수한 개발자 콘텐츠 발견에 전념
(Collection and Share based on the CC Protocol.)
Reference
이 문제에 관하여(Core tana Intelligence Suite 구축(4차) - Azure Data Lake Analytics를 사용하여 빅데이터 조회 시도), 우리는 이곳에서 더 많은 자료를 발견하고 링크를 클릭하여 보았다 https://qiita.com/taiki_yoshida/items/2b965232045ca2abdc89텍스트를 자유롭게 공유하거나 복사할 수 있습니다.하지만 이 문서의 URL은 참조 URL로 남겨 두십시오.
우수한 개발자 콘텐츠 발견에 전념 (Collection and Share based on the CC Protocol.)