Google Cloud Dataprep으로 데이터 처리

데이터 분석의 실무에서는, 체재가 갖추어지지 않은 데이터를 취급하는 일도 많아, 데이터 클렌징은 중요한 공정이라고 말할 수 있을 것입니다. 엑셀이나 Python등에서도 이러한 처리는 가능합니다만, 이번은 Google Cloud Dataprep를 사용한 데이터 클렌징을 시험해 보고 싶습니다.

우선 더미 데이터 작성 툴을 사용해 고객명이나 전화 번호, 주소등이 들어간 리스트를 작성했습니다(클렌징의 연습용으로, 숫자에 하이픈등을 더하고 있습니다). 여기에서 Dataprep을 사용하여 데이터를 처리합니다. 절차는 다음과 같습니다.

①GCP 홈에서 화면 왼쪽의 메뉴에서 Dataprep을 선택합니다.



② 전환 후 화면 오른쪽 상단에서 데이터를 가져와 라이브러리에 대상 데이터가 추가되었는지 확인합니다.





③ 한 번 홈 화면으로 돌아가 'Import Data' 버튼 아래에 있는 'Create Flow'를 클릭, 'Add Datasets'에서 방금 추가한 데이터 세트를 추가하고, 전환 후의 흐름도에 표시되는 'Add New Recipe "에서 처리 내용을 설정합니다.





④ 레시피를 추가한 후 화면 우측의 「Edit Recipe」에서 다음 화면으로 천이합니다. 데이터에 대해서, 캐릭터 라인인가 수치인가등의 데이터형은 자동적으로 판정되어 표기 흔들림이 있는 경우, 열명의 아래가 빨강으로 표시되게 되어 있습니다.



⑤「휴대전화」의 열을 보자. 열 이름을 클릭하면 고유한 값 유형, 입력 패턴 및 개선사항이 표시됩니다. 이 경우 전화번호의 일부에 하이픈이 들어가 버려서 표기가 통일되어 있지 않다는 것을 알 수 있습니다.





⑥ 하이픈을 삭제합시다. 이 경우 먼저 Replace → Text or pattern을 선택합니다.



그런 다음 Find 필드에 {delim}를 입력하고 Replace with를 비워 두면 하이픈을 삭제할 수 있습니다. 또한 Advanced Options → Match all occurences 상자를 선택하여 열의 모든 하이픈을 삭제할 수 있습니다. 처리 후의 미리보기는 해당 열의 오른쪽에 표시되므로 내용을 확인하면서 작업할 수 있습니다. 문제가 없으면 화면 오른쪽 하단의 Add 버튼을 누릅니다.



⑦ 레시피를 추가한 후, 화면 우측 상단의 「Run job」을 클릭합니다. 기본적으로 처리 후 데이터는 CSV 형식으로 출력되지만 BigQuery에 저장할 수도 있습니다.



Dataprep을 사용하면 대용량 데이터도 GUI 작업으로 신속하게 정리하고 데이터베이스에 저장할 수 있습니다. 이 외에도, 데이터의 룩업이나 결합 등 다양한 기능이 있어, 실무로 도움이 되는 일도 많은 것은 아닐까요. Dataprep의 기능에 대해서는 이하의 공식 가이드도 참고가 됩니다.

좋은 웹페이지 즐겨찾기