Missingno와 Pandas를 사용하여 결측값 찾기
예를 들어 온라인 의류 매장이 있는 경우 고객이 아기 카테고리를 클릭한 적이 없다면 자녀가 없을 가능성이 높습니다. 거기에 없는 정보를 단순히 취함으로써 많은 것을 배울 수 있습니다.
누락된 도서관
Missingno는 pandas 데이터 프레임 내에서 누락된 데이터의 존재 및 분포를 이해하는 데 도움이 되는 일련의 시각화를 제공하는 훌륭한 Python 모듈입니다. 이는 덴드로그램, 히트맵, 막대 그래프 또는 행렬 플롯의 형태를 취할 수 있습니다.
누락된 값이 발생한 위치, 누락된 정도, 이러한 그래프를 사용하여 누락된 값이 서로 연관되어 있는지 여부를 확인할 수 있습니다.
pip 명령을 사용하여 missingno 라이브러리를 설치할 수 있습니다.
pip install missingno
라이브러리 가져오기 및 데이터 로드
import pandas as pd
import missingno as msno
df = pd.read_csv('housing.csv')
df.head()
Pandas를 사용한 빠른 분석
missingno 라이브러리를 활용하기 전에 pandas 라이브러리에는 누락된 데이터의 양에 대한 아이디어를 제공할 수 있는 몇 가지 기능이 있습니다.
첫 번째 방법은 .describe() 메서드를 사용하는 것입니다. 이 함수는 평균, 최대값 및 최소값과 같은 데이터 프레임에 대한 요약 통계가 포함된 테이블을 반환합니다.
df.describe()
.info() 메서드를 사용하면 한 단계 더 나아갈 수 있습니다. 이렇게 하면 데이터 프레임 요약과 함께 null이 아닌 값의 개수가 제공됩니다.
df.info()
또 다른 빠른 기술은
df.isna().sum()
이 함수는 데이터 프레임에서 누락된 값의 수에 대한 요약을 생성합니다. isna() 함수는 데이터 프레임에서 누락된 값을 찾고 데이터 프레임의 각 요소에 대한 부울 결과를 반환합니다. sum() 함수는 모든 True 값을 더합니다.
missingno를 사용하여 누락된 데이터 식별
데이터 완전성을 시각화하기 위한 missingno 라이브러리에는 막대 그래프, 매트릭스 플롯, 히트맵 및 덴드로그램 플롯의 네 가지 유형의 플롯이 있습니다.
msno.matrix(df)
결과 그래픽의 total_bedrooms 열에는 일부 누락된 데이터가 표시됩니다.
msno.bar(df)
막대 그래프는 각 막대가 데이터 프레임 내의 열을 나타내는 간단한 도표를 제공합니다. 막대의 높이는 해당 열이 얼마나 완전한지, 즉 얼마나 많은 null이 아닌 값이 있는지 나타냅니다.
다른 것보다 낮은 total_bedrooms의 높이를 알 수 있습니다.
요약
기계 학습을 사용하기 전에 누락된 데이터를 식별하는 것은 데이터 품질 파이프라인에서 중요한 단계입니다. 이것은 missingno 라이브러리와 일련의 시각화로 가능합니다.
시간 내 주셔서 감사합니다!
Reference
이 문제에 관하여(Missingno와 Pandas를 사용하여 결측값 찾기), 우리는 이곳에서 더 많은 자료를 발견하고 링크를 클릭하여 보았다 https://dev.to/alisharana/finding-out-the-missing-values-using-missingno-and-pandas-368a텍스트를 자유롭게 공유하거나 복사할 수 있습니다.하지만 이 문서의 URL은 참조 URL로 남겨 두십시오.
우수한 개발자 콘텐츠 발견에 전념 (Collection and Share based on the CC Protocol.)