고졸기능원의 알기 쉬운【Pandas】실천・데이터 확인 방법

pandas를 이용한 데이터 확인 방법 요약

자꾸 보고 싶다



데이터 모양 확인

데이터의 형태 (행 수 × 열 수).
print(〇〇.shape)

열(열 이름) 확인
print(〇〇.columns)

처음 5줄만 표시

5 줄을 표시하려면.
print(〇〇.head())

지정의 행수, 보고 싶은 경우는 head()의 괄호내에 수를 넣는다

10 행을 표시하려면.
print(〇〇.head(10))

Kaggle의 타이타닉 : 재해에서 기계 학습의 train_data로 시도하면


자세히 살펴보고 싶습니다 (행, 열, 요소, 유형 및 메모리 검사)



자세한 내용을 보려면 info()를 사용합시다.

정보를 얻으십시오.
print(〇〇.info())


RangeIndex:(범위)가 891인 반면 Age, Cabin, Embarked는 적고 데이터가 누락되어 있음을 알 수 있습니다.

기술 통계를 알고 싶다 (데이터가 나타내는 경향과 성질 확인)



기술 통계란? : 통계 기법 중 하나로 수집 된 데이터의 평균, 분산, 표준 편차 등을 계산하여 분포를 밝히고 데이터가 나타내는 경향과 성질을 파악하는 기법

데이터의 기술 통계에는 describe()를 사용합니다.
NaN 값은 제외된 상태로 계산되며 문자열은 이 경우 입력되지 않습니다.

설명 통계 계산 (문자열 제외).
print(〇〇.describe())

수치의 기술 통계는 이하의 형태로 나타내집니다
count 데이터 수
mean 평균
std 표준 편차
min 최소값
25% 제1사부위수
50% 제2사부위수(중앙값)
75% 제3사부위수
max 최대값


카테고리의 기술 통계는
count
unique 고유(유일) 데이터 수
top 최빈값
freq top의 수

타임스탬프 설명 통계
count
unique
top
freq
첫 번째 과거 값
마지막 1번 최신 값

덧붙여서 문자열의 통계 기술도 할 수 있습니다.

설명 통계 계산 (문자열 전용).
print(〇〇.describe(include=['O'])) #大文字O 数字のゼロではないよ!
print(〇〇.describe(include=['object'])) #小文字の方はobjectとちゃんと打つ

문자열의 기술 통계의 형태는
count
unique
top
freq


(include = 'all')에서 모든 설명 통계를 낼 수 있습니다.

설명 통계 계산 (모두).
〇〇.describe(include='all')

좋은 웹페이지 즐겨찾기