데이터 분석 및 사전 처리 간소화!AWS Glue DataBrew
4907 단어 AWS
입문
데이터를 분석하거나 기계 학습을 통해 학습하기 전에 일반적으로 결손치를 보충하거나 필요하지 않은 열을 삭제하는 등 예처리를 해야 한다.다음은 AWS Glue DataBrew를 사용하여 데이터 분석 및 사전 처리를 수행하는 방법에 대해 설명합니다.
분석 데이터
Titanic의 데이터로 데이터를 분석해 보세요.
DataBrew 콘솔에 액세스하려면 AWS 콘솔에 로그인하십시오.
데이터 세트 만들기
콘솔 왼쪽의 메뉴에서 데이터 집합을 선택한 후 파일을 직접 업로드하고 아마존 S3에 저장된 파일을 지정하며 다른 데이터 원본을 선택하여 데이터 집합을 만들 수 있습니다.
항목 만들기
그리고 생성된 데이터 집합을 지정해서 프로젝트를 만듭니다.현재 IAM 역할은 직접 만들어야 합니다.데이터 세트에 등록된 CSV 파일을 저장하는 S3 배럴에 대한 GetObject 권한이 필요합니다.
프로젝트를 만들면 이 진행률을 표시하는 화면이 표시됩니다.다른 AWS 서비스에 비해 유행하는 것 같습니다.일본어도 잘 대응한다.
데이터 컨텐트가 표시됩니다.데이터 분포 등 간단한 분석 결과도 나왔다.
분석 데이터
프로파일 탭을 선택하고 데이터 프로파일 실행 을 클릭합니다.
작업 만들기 화면에서 데이터의 출력 장소와 IAM 역할을 설정하고 작업 만들기 및 실행 을 몇 분 정도 기다리면 다음 화면이 표시됩니다.작업이 성공적으로 실행되지 않으면 다시 로드가 의외로 완료될 수 있습니다.관련 관계의 그림은 수치 데이터에 대한 관련 정도를 확인할 수 있다.Fare와 Pclass가 마이너스 관계가 있음을 발견했습니다.
각 피쳐 양에 대한 분석 결과를 보려면 열 통계 탭을 클릭합니다.Age에 20% 정도의 결손값이 발견되었습니다.
아키텍처 확인
각 피쳐 양에 대한 통계를 보려면 스키마 탭을 선택합니다.또한 표시/숨김 스위치를 숨김으로 설정하면 메쉬 탭에서 피쳐의 양을 숨깁니다.
누락된 값이 있는 Age를 선택한 다음 오른쪽 창에서 제안 탭을 클릭하면 Age에 적용해야 할 작업이 표시됩니다.표시되는 항목을 클릭하여 프로세스를 적용할 수 있습니다.열의 순서와 열의 이름을 변경할 수도 있습니다.
데이터 사전 처리
열 삭제
Name이 생존력을 예측할 필요가 없기 때문에Name 열을 삭제해 보십시오.[격자] 탭을 선택하여 데이터 조회 화면을 표시하고Name 열의 오른쪽에 있는 [...] 를 클릭하고 삭제를 선택한 다음 [적용] 을 클릭합니다.
클래스 데이터에 대해 one-hot 인코딩
Pclass는 분류 데이터이기 때문에 one-hot 인코딩을 시도해 보십시오.Pclass 열의 오른쪽에 있는... 을 클릭하고 One-Hot-Encode 열을 선택한 다음 적용 을 클릭합니다.그래서 Pclass열 오른쪽에서 Pclass_1、Pclass_2、Pclass_3열이 추가되었습니다.원래 Pclass 열이 필요하지 않으므로 먼저 삭제합니다.
처방전 보기
이로써 Name 열 삭제, Pclass 열에 대한 one-hot 인코딩, Pclass 열 삭제가 적용되었습니다.여기서 [식단] 화면은 다음과 같다.여기의 제출 아이콘을 누르면 처방전을 발표할 수 있습니다.발표된 처방전은 콘솔 왼쪽의 처방전 메뉴에 나열됩니다.
작업 수행 (데이터에 미리 처리된 내용을 적용하고 저장)
처방전이 비어 있지 않은 상태에서 컨트롤러의 오른쪽 상단에 있는'작업 실행'을 누르고 파일 출력 위치를 설정한 다음'작업 실행'을 누르십시오.그리고 처방전 내용은 데이터 집합에 적용되고 지정된 위치에 저장됩니다.
데이터 시퀀스 표시
콘솔의 오른쪽 위 모서리에 있는 시스템 아이콘 을 클릭하면 다음 화면이 표시됩니다.이 항목이 어떤 데이터에 대해 어떤 조작을 했는지 가시화했다.각 아이콘을 누르면 세부 사항을 볼 수 있습니다.
마지막
본고는 AWS Glue DataBrew를 사용하여 데이터를 분석하고 미리 처리하는 방법을 소개합니다.쉽게 접할 수 있는 UI로 직관적인 조작을 쉽게 하고 미리 처리된 내용을 식단 형식으로 저장하며 다른 데이터 집합에 적용하는 것도 간단해졌다.
Glue DataBrew와 유사한 서비스로는 데이터를 분석하고 미리 처리할 수 있음Amazon SageMaker Data Wrangler이 있지만, 여기에는 특징량의 중요도와 머신러닝을 계산할 수 있는 기능과 미리 처리된 내용을 Python 코드로 내보낼 수 있기 때문에이것은 최종적으로 코드에 들어가서 시스템에 미리 처리된 전제 조건이라는 인상을 준다.
Reference
이 문제에 관하여(데이터 분석 및 사전 처리 간소화!AWS Glue DataBrew), 우리는 이곳에서 더 많은 자료를 발견하고 링크를 클릭하여 보았다 https://qiita.com/mariohcat/items/bdd83d10caa3da85c584텍스트를 자유롭게 공유하거나 복사할 수 있습니다.하지만 이 문서의 URL은 참조 URL로 남겨 두십시오.
우수한 개발자 콘텐츠 발견에 전념 (Collection and Share based on the CC Protocol.)