pandas_프로필을 사용하여 데이터 상태 확인
2190 단어 데이터 엔지니어pandas-profilingPython
개요
데이터 엔지니어와 데이터 정비에 종사하는 사람들은 데이터의 불일치를 볼 때 다양한 도구를 사용해 조사를 하고 SQL로 두드려 조사를 하고 싶다.
요즘 나도 그런 일을 자주 한다.특히 새로운 데이터의 합작을 시작할 때 데이터의 내용을 자주 볼 수 있다.바로 이때.도움이 되다.
설치 방법 pip install pandas-profiling[notebook]
사용법 import pandas_profiling as pdp
from sklearn.datasets import load_boston
data = load_boston()
df = pd.DataFrame(data.data, columns=data.feature_names)
profile = pdp.ProfileReport(df, {'correlations': None})
profile.to_file("profile.html")
나는 단순히 데이터의 분포를 알고 싶은 것이 많아서 관련 정보를 계산하지 않기 위해 옵션을 추가했다.
또 다른 사람과 공유 등을 위해''(으)로 출력한다.
결실
Jupter notebook에서 실행하면 다음 그림과 같이 처리 표시줄을 보여줍니다. 처리 후의 상태를 알 수 있습니다.
각 항목의 데이터 상태를 알다.특히 내가 신경 쓰는 것은 손실치인데 손실치의 수량과 비례를 나타내서 매우 편리하다.
pandas_profiling
Reference
이 문제에 관하여(pandas_프로필을 사용하여 데이터 상태 확인), 우리는 이곳에서 더 많은 자료를 발견하고 링크를 클릭하여 보았다
https://qiita.com/yujikawa/items/e8db82aec6ef6bd73d7c
텍스트를 자유롭게 공유하거나 복사할 수 있습니다.하지만 이 문서의 URL은 참조 URL로 남겨 두십시오.
우수한 개발자 콘텐츠 발견에 전념
(Collection and Share based on the CC Protocol.)
pip install pandas-profiling[notebook]
사용법 import pandas_profiling as pdp
from sklearn.datasets import load_boston
data = load_boston()
df = pd.DataFrame(data.data, columns=data.feature_names)
profile = pdp.ProfileReport(df, {'correlations': None})
profile.to_file("profile.html")
나는 단순히 데이터의 분포를 알고 싶은 것이 많아서 관련 정보를 계산하지 않기 위해 옵션을 추가했다.
또 다른 사람과 공유 등을 위해''(으)로 출력한다.
결실
Jupter notebook에서 실행하면 다음 그림과 같이 처리 표시줄을 보여줍니다. 처리 후의 상태를 알 수 있습니다.
각 항목의 데이터 상태를 알다.특히 내가 신경 쓰는 것은 손실치인데 손실치의 수량과 비례를 나타내서 매우 편리하다.
pandas_profiling
Reference
이 문제에 관하여(pandas_프로필을 사용하여 데이터 상태 확인), 우리는 이곳에서 더 많은 자료를 발견하고 링크를 클릭하여 보았다
https://qiita.com/yujikawa/items/e8db82aec6ef6bd73d7c
텍스트를 자유롭게 공유하거나 복사할 수 있습니다.하지만 이 문서의 URL은 참조 URL로 남겨 두십시오.
우수한 개발자 콘텐츠 발견에 전념
(Collection and Share based on the CC Protocol.)
import pandas_profiling as pdp
from sklearn.datasets import load_boston
data = load_boston()
df = pd.DataFrame(data.data, columns=data.feature_names)
profile = pdp.ProfileReport(df, {'correlations': None})
profile.to_file("profile.html")
Jupter notebook에서 실행하면 다음 그림과 같이 처리 표시줄을 보여줍니다. 처리 후의 상태를 알 수 있습니다.
각 항목의 데이터 상태를 알다.특히 내가 신경 쓰는 것은 손실치인데 손실치의 수량과 비례를 나타내서 매우 편리하다.
pandas_profiling
Reference
이 문제에 관하여(pandas_프로필을 사용하여 데이터 상태 확인), 우리는 이곳에서 더 많은 자료를 발견하고 링크를 클릭하여 보았다 https://qiita.com/yujikawa/items/e8db82aec6ef6bd73d7c텍스트를 자유롭게 공유하거나 복사할 수 있습니다.하지만 이 문서의 URL은 참조 URL로 남겨 두십시오.
우수한 개발자 콘텐츠 발견에 전념 (Collection and Share based on the CC Protocol.)