【Python】 Missingno를 사용하여 누락 값을 시각화

소개



데이터 분석에 있어서 데이터의 결손은 가장 처음에 가로막는 과제 중 하나입니다. 더 나은 모델을 만들려면 누락된 값을 미리 파악하고 처리해야 합니다.
Missingno는 누락된 값을 효과적으로 시각화하여 데이터 전처리를 보다 효율적으로 만들 수 있습니다.

1. Missingno 설치


pip install missingno

에서 Missingno를 설치합니다.

2. Missingno 사용하기



Missingno는 Python의 Pandas 데이터에서 사용할 수 있습니다.
데이터는 Kaggle의 Titanic 데이터를 사용합니다.
import missingno as msno
import pandas as pd
msno.matrix(df)



누락된 값이 전체 데이터의 어느 곳에 분포되어 있는지 알 수 있습니다.
msno.bar(df)



각 특징량에서 얼마나 결손값이 있는지를 알 수 있습니다.
msno.heatmap(df)



결측값에 있어서의 특징량간의 상관도를 나타낸 히트 맵입니다.
msno.dendrogram(df)



마지막으로, 결측값의 분포로 특징량을 정리한 결과입니다.

자세한 내용은 여기을 참조하십시오.

좋은 웹페이지 즐겨찾기