탐색 데이터 분석의 첫 단계에 편리한 pandas-profiling 도입 및 개요

소개



기계 학습의 데이터의 전처리 공정에 있어서, pandas 등을 이용해, 여러가지 데이터를 바라보면서 탐색적 데이터 분석을 한다고 생각합니다만, 데이터의 가시화를 1 커멘드로 간단하게 해 주는 툴 「pandas-profiling」이라고 한다 물건이 있기 때문에 그것을 소개합니다.

소개



터미널
$ pip install pandas-profiling

라이브러리 가져오기


import pandas as pd
import pandas_profiling as pdp

사양



타이타닉 데이터를 사용해보십시오. 타이타닉을 모르는 사람은 「kaggle 타이타닉」으로 조사해 주세요.
dataframe = pd.read_csv('train.csv')

명령은 1문만입니다.
pdp.ProfileReport(dataframe)

출력 결과는 상당한 볼륨이므로 html 파일에 떨어뜨리는 것이 보기 쉽습니다.
html = pdp.ProfileReport(dataframe)
html.to_file(output_file='dump.html')

출력



Overview



데이터의 개요를 가르쳐줍니다. 열 수(Number of variables), 행 수(Number of observations), 누락 값 수(Missing cells), 중복 열(Duplicate rows)


Variables



각 항목(열)마다의 데이터 개요를 가르쳐 줍니다. 연령(Age)의 출력 예입니다.



상호작용



열과 열의 관계를 가르쳐줍니다. 나이와 운임의 출력 예입니다.


Correlations



열과 열과의 상관을 가르쳐줍니다.


Missing values



누락 값에 대한 정보를 알려줍니다.


마지막으로



초보자도 알 수 있듯이 Python에서 기계 학습을 실시할 때 필요한 지식을 간편하게 기사로 정리하고 있습니다.
목차는 여기 가 되므로, 다른 기사도 참고로 해 주실 수 있으면 다행입니다.

좋은 웹페이지 즐겨찾기