Missingno와 Pandas를 사용하여 결측값 찾기

3270 단어
나를 위한 데이터 정리의 첫 번째 단계는 일반적으로 누락된 데이터를 찾는 것입니다. 누락된 데이터는 다른 출처를 가질 수 있으며, 사용할 수 없거나, 손실되거나, 손상될 수 있으며 일반적으로 문제가 되지 않습니다. 채울 수 있지만 종종 시간 누락 데이터는 그 자체로 매우 유익하다고 생각합니다. 데이터를 평균 또는 이와 유사한 것으로 채울 수 있으며 자주 수행하는 방법을 보여 드리겠습니다.
예를 들어 온라인 의류 매장이 있는 경우 고객이 아기 카테고리를 클릭한 적이 없다면 자녀가 없을 가능성이 높습니다. 거기에 없는 정보를 단순히 취함으로써 많은 것을 배울 수 있습니다.

누락된 도서관
Missingno는 pandas 데이터 프레임 내에서 누락된 데이터의 존재 및 분포를 이해하는 데 도움이 되는 일련의 시각화를 제공하는 훌륭한 Python 모듈입니다. 이는 덴드로그램, 히트맵, 막대 그래프 또는 행렬 플롯의 형태를 취할 수 있습니다.
누락된 값이 발생한 위치, 누락된 정도, 이러한 그래프를 사용하여 누락된 값이 서로 연관되어 있는지 여부를 확인할 수 있습니다.
pip 명령을 사용하여 missingno 라이브러리를 설치할 수 있습니다.

pip install missingno


라이브러리 가져오기 및 데이터 로드

import pandas as pd
import missingno as msno
df = pd.read_csv('housing.csv')
df.head()




Pandas를 사용한 빠른 분석
missingno 라이브러리를 활용하기 전에 pandas 라이브러리에는 누락된 데이터의 양에 대한 아이디어를 제공할 수 있는 몇 가지 기능이 있습니다.

첫 번째 방법은 .describe() 메서드를 사용하는 것입니다. 이 함수는 평균, 최대값 및 최소값과 같은 데이터 프레임에 대한 요약 통계가 포함된 테이블을 반환합니다.

df.describe()



.info() 메서드를 사용하면 한 단계 더 나아갈 수 있습니다. 이렇게 하면 데이터 프레임 요약과 함께 null이 아닌 값의 개수가 제공됩니다.

df.info()




또 다른 빠른 기술은

df.isna().sum()


이 함수는 데이터 프레임에서 누락된 값의 수에 대한 요약을 생성합니다. isna() 함수는 데이터 프레임에서 누락된 값을 찾고 데이터 프레임의 각 요소에 대한 부울 결과를 반환합니다. sum() 함수는 모든 True 값을 더합니다.


missingno를 사용하여 누락된 데이터 식별
데이터 완전성을 시각화하기 위한 missingno 라이브러리에는 막대 그래프, 매트릭스 플롯, 히트맵 및 덴드로그램 플롯의 네 가지 유형의 플롯이 있습니다.

msno.matrix(df)




결과 그래픽의 total_bedrooms 열에는 일부 누락된 데이터가 표시됩니다.

msno.bar(df)




막대 그래프는 각 막대가 데이터 프레임 내의 열을 나타내는 간단한 도표를 제공합니다. 막대의 높이는 해당 열이 얼마나 완전한지, 즉 얼마나 많은 null이 아닌 값이 있는지 나타냅니다.

다른 것보다 낮은 total_bedrooms의 높이를 알 수 있습니다.

요약
기계 학습을 사용하기 전에 누락된 데이터를 식별하는 것은 데이터 품질 파이프라인에서 중요한 단계입니다. 이것은 missingno 라이브러리와 일련의 시각화로 가능합니다.

시간 내 주셔서 감사합니다!

좋은 웹페이지 즐겨찾기