【편리! ]pandas-profiling(Python)에 의한 간이 데이터 해석

pandas-profiling이란?



pandas-profiling은 pandas의 DataFrame 프로파일링 결과를 함께 출력할 수 있는 라이브러리입니다.
DataFrame 의 기본적인 통계량이나 상관계수 등을 한 번에 정리해 확인할 수 있어 매우 편리합니다.

특징
· 사용하기 쉽다 (한 줄의 코드로 실행 가능 · 파라미터 설정 불필요)
・ 손쉽게 다각적으로 데이터를 해석해 준다
・ 그래프를 출력해 비주얼면에서도 알기 쉽다

참조 소스 데이터
Github : htps : // 기주 b. 코 m / 팬더 SP 로프 펜 g / 팬더 SP 로프 ぃ g
데모 : htps : /// b ゔ ぃ 에우 r. Jupy r. 오 rg/기테 b/조 s포 lfぃ에 t/판다 s-p로후ぃぃ g/bぉb/마s테 r/에ぁmpぇs/하고 있어 s. 이 pyn b

설치~실행



데이터는 Kaggle의 Titanic Train 데이터를 사용합니다.
htps //w w. 꺄gぇ. 이 m/c/치타니 c/다타
# 未インストールの場合はpipでインストール
pip install pandas-profiling
# ライブラリをインポート
import pandas as pd
import pandas_profiling
# データファイルを読み込む
df = pd.read_csv('titanic/train.csv')
# 実行
pandas_profiling.ProfileReport(df)

4개의 섹션으로 나누어 분석 결과가 출력됩니다.


①Overview
전체 데이터의 정보를 표시합니다.
결측값의 비율이나 데이터형등도 한눈에 확인할 수 있고, Warnings 부분에서는 각 특징량의 주의점(결손값이 많고, 0의 비율이 많다...등)을 가르쳐 줍니다.


②Variables
각 변수에 대한 간단한 분석 결과를 얻을 수 있습니다.
데이터 형식에 따라 그래프의 형태가 바뀌어 매우 친절합니다.
누락된 데이터가 눈에 띄면 빨간색으로 강조됩니다.


③Correlations
히트맵에서 상관관계를 시각화합니다.
상관이 강한 변수 쌍을 시각적으로 이해할 수 있습니다.
피어슨과 스피어맨 모두 결과를 출력합니다.


④Sample
df.head()와 같은 출력을 표시.
기본적으로 데이터를 취급할 때 반드시 .head()는 사용하므로 수고를 줄일 수 있습니다.

사용해 본 소감



어쨌든 신속한 것이 좋습니다.
이것만으로는 충분하지 않지만 데이터를 분석하는 데 매우 유용합니다.
EDA(탐색적 데이터 분석)의 첫걸음으로서 매우 유용하다고 느꼈습니다.
Kaggle 등의 대회에서도 첫 번째로 사용하고 싶습니다.

좋은 웹페이지 즐겨찾기