탐색 데이터 분석의 첫 단계에 편리한 pandas-profiling 도입 및 개요

소개

기계 학습의 데이터의 전처리 공정에 있어서, pandas 등을 이용해, 여러가지 데이터를 바라보면서 탐색적 데이터 분석을 한다고 생각합니다만, 데이터의 가시화를 1 커멘드로 간단하게 해 주는 툴 「pandas-profiling」이라고 한다 물건이 있기 때문에 그것을 소개합니다.

소개

터미널

$ pip install pandas-profiling

라이브러리 가져오기

import pandas as pd
import pandas_profiling as pdp

사양

타이타닉 데이터를 사용해보십시오. 타이타닉을 모르는 사람은 「kaggle 타이타닉」으로 조사해 주세요.

dataframe = pd.read_csv('train.csv')

명령은 1문만입니다.

pdp.ProfileReport(dataframe)

출력 결과는 상당한 볼륨이므로 html 파일에 떨어뜨리는 것이 보기 쉽습니다.

html = pdp.ProfileReport(dataframe)
html.to_file(output_file='dump.html')

출력

Overview

데이터의 개요를 가르쳐줍니다. 열 수(Number of variables), 행 수(Number of observations), 누락 값 수(Missing cells), 중복 열(Duplicate rows)

Variables

각 항목(열)마다의 데이터 개요를 가르쳐 줍니다. 연령(Age)의 출력 예입니다.

상호작용

열과 열의 관계를 가르쳐줍니다. 나이와 운임의 출력 예입니다.

Correlations

열과 열과의 상관을 가르쳐줍니다.

Missing values

누락 값에 대한 정보를 알려줍니다.

마지막으로

초보자도 알 수 있듯이 Python에서 기계 학습을 실시할 때 필요한 지식을 간편하게 기사로 정리하고 있습니다.
목차는 여기 가 되므로, 다른 기사도 참고로 해 주실 수 있으면 다행입니다.

Reference

이 문제에 관하여(탐색 데이터 분석의 첫 단계에 편리한 pandas-profiling 도입 및 개요), 우리는 이곳에서 더 많은 자료를 발견하고 링크를 클릭하여 보았다 https://qiita.com/Yanagawa_Yoshihisa/items/9374476984598a057155

텍스트를 자유롭게 공유하거나 복사할 수 있습니다.하지만 이 문서의 URL은 참조 URL로 남겨 두십시오.

우수한 개발자 콘텐츠 발견에 전념 (Collection and Share based on the CC Protocol.)

좋은 웹페이지 즐겨찾기

개발자 우수 사이트 수집

개발자가 알아야 할 필수 사이트 100선 추천 우리는 당신을 위해 100개의 자주 사용하는 개발자 학습 사이트를 정리했습니다