pandas_프로필을 사용하여 데이터 상태 확인

개요


데이터 엔지니어와 데이터 정비에 종사하는 사람들은 데이터의 불일치를 볼 때 다양한 도구를 사용해 조사를 하고 SQL로 두드려 조사를 하고 싶다.
요즘 나도 그런 일을 자주 한다.특히 새로운 데이터의 합작을 시작할 때 데이터의 내용을 자주 볼 수 있다.바로 이때.도움이 되다.

설치 방법

pip install pandas-profiling[notebook]

사용법

import pandas_profiling as pdp
from sklearn.datasets import load_boston

data = load_boston()
df = pd.DataFrame(data.data, columns=data.feature_names)

profile = pdp.ProfileReport(df, {'correlations': None})
profile.to_file("profile.html")

나는 단순히 데이터의 분포를 알고 싶은 것이 많아서 관련 정보를 계산하지 않기 위해 옵션을 추가했다.
또 다른 사람과 공유 등을 위해''(으)로 출력한다.

결실


Jupter notebook에서 실행하면 다음 그림과 같이 처리 표시줄을 보여줍니다. 처리 후의 상태를 알 수 있습니다.
각 항목의 데이터 상태를 알다.특히 내가 신경 쓰는 것은 손실치인데 손실치의 수량과 비례를 나타내서 매우 편리하다.
pandas_profiling

좋은 웹페이지 즐겨찾기