범주형 변수의 빈도수
학습 목표
파이썬에 대해 알아봅니다.
핵심 키워드
df.nunique()
하나의 변수에 대한 빈도수 : series.value_counts()
sns.countplot()
두 개 이상의 변수에 대한 빈도수 : pd.crosstab()
Point
파이썬의 범주형 변수에 대한 빈도수를 그릴 때, 변수의 갯수에 따라 1개의 변수에 대해서는 value_counts()를 통해 그려보고 2개 이상의 변수에 대해서는 pd.crosstab을 통해 빈도수를 구합니다.
df.nunique()를 통해 유일값의 갯수를 구할 수 있습니다.
하나의 변수에 대한 빈도수는 series.value_counts() 로 구합니다. (판다스 1.1.3 버전부터는 데이터프레임 전체 대한 빈도수도 구할 수 있습니다.)
seaborn 으로 빈도수를 시각화 할 때는 sns.countplot()으로 시각화하고, seaborn은 data와 x 혹은 y축의 변수값만 지정해 주면 countplot으로 빈도수를 시각화합니다.
두 개 이상의 변수에 대한 빈도수를 구할 때는 pd.crosstab() 을 사용합니다.
countplot을 시각화 할 때 seaborn 의 hue 에 특정 변수를 지정해 주면 해당 변수값에 따라 막대의 색상을 다르게 표현하게 됩니다.
Code로 보는 시각화
*1개 변수의 빈도수
# origin 의 빈도수 구하기
df["origin"].value_counts()
*2개 이상의 변수에 대한 빈도수
# countplot 으로 origin 의 빈도수를 시각화 하고 cylinders 로 다른 색상으로 표현하기
sns.countplot(data=df, x="origin", hue="cylinders")
# countplot 으로 cylinders 의 빈도수를 시각화 하고 origin 으로 다른 색상으로 표현하기
sns.countplot(data=df, x="cylinders", hue="origin")
# pd.crosstab 으로 시각화한 값 직접 구하기
pd.crosstab(df["origin"],df["cylinders"])
Author And Source
이 문제에 관하여(범주형 변수의 빈도수), 우리는 이곳에서 더 많은 자료를 발견하고 링크를 클릭하여 보았다 https://velog.io/@qsdcfd/범주형-변수의-빈도수-2evqatl4저자 귀속: 원작자 정보가 원작자 URL에 포함되어 있으며 저작권은 원작자 소유입니다.
우수한 개발자 콘텐츠 발견에 전념 (Collection and Share based on the CC Protocol.)