AWS Glue DataBrew 시도

11410 단어 DataBrewAWSglue

입문


이 글은 BeeX Advent Calendar 202012/21의 글입니다.
==
이번에는 11/13에 출시된 AWS Glue DataBrew를 사용해 보겠습니다.
  • AWS Glue DataBrew 출시
  • AWS 공식의 다음 문서에 기초하여 진행됩니다.
  • AWS GLue DataBrew 개요
  • AWS Glue DataBrew란 무엇입니까?


    AWS 측은 Glue DataBrew를 "코드를 작성하지 않아도 데이터를 정리하고 규범화할 수 있는 가시적 데이터 준비 도구"라고 밝혔다.
    간단하게 말하면 지금까지 데이터 분석 등에서 진행된 예처리를 코드 없이 진행할 수 있고 서버 설정이 없고 인프라 시설의 관리도 AWS에 맡길 수 있다.
    편리하다

    이번 결승점.

  • Glue DataBrew의 작동 방식을 이해할 수 있음
  • 튜토리얼 기반 구축 가능
  • 실제 작업


    항목 만들기


    콘솔에서 프로젝트를 만듭니다.

    항목 이름과 처방전 이름을 입력합니다.

    데이터 집합 미리 준비한 예시 파일 집합을 선택하십시오.

    샘플 파일은 모두 7개를 선택할 수 있다.

    이번에는'유명한 체스 게임의 동작'을 사용한다.

    예제를 선택한 후 데이터 세트 이름을 설정했습니다.

    IAM 캐릭터는 미리 만들어진 캐릭터를 설정해 프로젝트를 만든다.
    옵션이 설정되지 않았습니다.

    액세스 라이센스에 설정된 IAM 역할에 대한 권한이 여기에 있습니다.

    권한 생성은 다음과 같습니다.
    * IAM 역할에 대한 데이터 리소스 액세스 추가

    확인 만들기


    프로젝트를 만들면 프로비저닝이 시작됩니다.

    구성이 완료되면 예제 데이터가 표시됩니다.

    데이터 요약


    예제 항목을 완료한 후 DataBrew 처방전을 작성합니다.
    원본 데이터 세트에 적용할 수 있는 변환 프로세스를 요약하여 만든 후에 공개적으로 사용할 수 있습니다.
    공식은 다음과 같은 조건으로 설정됩니다.
    이 강좌에서 이 두 유저는 모두 A류 게임에만 관심을 가지는데 이것은 그들의 평가가 1800을 넘는다는 것을 의미한다.
    이 평가가 어떤지는 잘 모르겠지만 아래의 위키를 보면'Rating range'가 1800~1999의 경우 A류인 것 같습니다.
    Chess rating system

    필터 설정


    먼저 데이터의 필터를 진행합니다.
    [필터] → [조건별] → [이상]을 선택합니다.
    그리고 오른쪽에 상세한 정보를 입력하는 화면을 표시하고 원본 열에 [white_rating]을 입력하고 필터 조건에 [1800]을 입력하고 적용 단추를 누르십시오.


    필터 조건에 따라 각 열의 값이 분포된 도표에 약간의 변화가 있음을 나타낸다.

    같은 절차에 따라 원본 열에 "black_rating"을 입력하고 필터 조건에 "1800"을 입력한 다음 적용 단추를 누르십시오.

    처방 항목은 방금 설정한 두 개의 선별 값을 보여 줍니다.

    데이터 요약


    다음은 데이터의 요약을 진행한다.
    그룹 아이콘을 누릅니다.

    다음과 같이 그룹 속성을 설정합니다.
    "winner"와 "victory_status"를 "그룹"으로 설정하고 "계수"를 통해 "다른 열 추가"단추에서 "winner"를 추가합니다.
    문제가 없으면 종료를 누르십시오.

    처음 화면으로 돌아가기 때문에 오른쪽 레시피의 발행 아이콘을 누르세요.

    레시피 공개 화면이 뜨기 때문에 버전 설명을 적당히 입력한 후 발매 버튼을 누른다.

    테스트 항목 recipe에 버전 1.0이 표시되면 OK.

    변환 프로세스 추가


    아까 레시피에 추가 변환 처리.

    무승부 경기 제외


    아까와 같은 절차에 따라 필터 값 설정 화면을 표시하고 원본 열에서 "victory_status"를 선택하고 필터 조건에서 "아니오"를 선택하고 Unique values 값의 "draw"를 누르십시오.

    필터가 추가되었습니다. 버전 정보 옆에'공개되지 않은 변경 사항'이라는 글자가 표시됩니다.

    값 바꾸기


    데이터의 교환을 진행하다.
    [지우기] > [값 또는 패턴 바꾸기] 를 누릅니다.

    아래와 같이 "mate"문자열을 "checkmate"로 바꾸고 응용 단추를 누르십시오.
    ※ 원본은 winner가 아니라 victory_status 정답

    다른 값을 같은 단계로 대체합니다.
    ※ 원본은 winner가 아니라 victory_status 정답


    변환을 확인한 후 식단의 발행 단추에서 변경 사항을 저장합니다.

    DataBrew 리소스 확인


    생성된 DataBrew 리소스를 확인합니다.
    데이터 세트를 선택합니다.

    예시 항목에서 만든 데이터 집합을 데이터 집합에서 볼 수 있습니다.

    원래 데이터는 S3에 저장된 Excel 파일로 저장됩니다.

    한 항목을 선택하여 한 항목이 방금 설계도를 설정했는지 확인하세요.
    DataBrew에서 프로젝트는 데이터 세트와 처방전이 필요합니다.
    이번에 샘플 프로젝트를 사용하기 때문에 데이터 집합과 빈 레시피를 자동으로 만들었습니다.

    처방전을 눌러서 작성한 처방전이 표시되는지 확인하십시오.

    데이터 프로필 만들기


    데이터 Brew는 데이터 통계를 구성 파일로 표시합니다.
    작업을 만들고 실행하여 데이터 프로필을 만듭니다.
    작업을 선택하고 작업 만들기를 누릅니다.

    작업 이름, 작업 유형, 데이터 집합, 작업 출력 목표를 설정합니다.

    액세스 권한 역할에서 DataBrew 서비스에서 S3에 액세스할 수 있는 IAM 역할을 지정합니다.
    여기에 입력할 수 있고 설정할 수 있다면'작업 만들기 및 실행'을 누르십시오.

    작업 실행 기록의 상태가 실행 중인지 확인하십시오.

    실행이 완료되었는지 확인한 후 오른쪽 상단에 있는 파일 표시 아이콘을 누르면 데이터 파일이 표시됩니다.


    열의 통계 라벨을 표시하면 데이터의 질량, 값의 분산 정도, 데이터가 부족한 값 등 데이터 삽입을 볼 수 있다.

    작업에서 처리된 데이터는 파일로 지정되어 S3에 업로드됩니다.

    끝내다


    이상, 샘플 프로젝트의 데이터를 바탕으로 DataBrew를 사용하여 필터를 하고 코드가 없는 방식으로 통계의 생성 등을 시도했다.
    비록 다 쓸 수 없는 느낌이지만 데이터 원본을 DataBrew에서 접근할 수 있다면 데이터의 세척과 필터 등을 간단하게 실시할 수 있다.
    처음에 들었을 때 코드 없이 현행 Glue를 할 수 있다는 인상을 받았지만 실제로는 이와 같은 수준에서 설정할 때 더욱 깊은 서비스에 대한 숙련이 필요한 것 같다.

    좋은 웹페이지 즐겨찾기