범주형 변수의 빈도수

학습 목표

파이썬에 대해 알아봅니다.


핵심 키워드

df.nunique()

하나의 변수에 대한 빈도수 : series.value_counts()

sns.countplot()

두 개 이상의 변수에 대한 빈도수 : pd.crosstab()


Point

파이썬의 범주형 변수에 대한 빈도수를 그릴 때, 변수의 갯수에 따라 1개의 변수에 대해서는 value_counts()를 통해 그려보고 2개 이상의 변수에 대해서는 pd.crosstab을 통해 빈도수를 구합니다.

df.nunique()를 통해 유일값의 갯수를 구할 수 있습니다.

하나의 변수에 대한 빈도수는 series.value_counts() 로 구합니다. (판다스 1.1.3 버전부터는 데이터프레임 전체 대한 빈도수도 구할 수 있습니다.)

seaborn 으로 빈도수를 시각화 할 때는 sns.countplot()으로 시각화하고, seaborn은 data와 x 혹은 y축의 변수값만 지정해 주면 countplot으로 빈도수를 시각화합니다.

두 개 이상의 변수에 대한 빈도수를 구할 때는 pd.crosstab() 을 사용합니다.

countplot을 시각화 할 때 seaborn 의 hue 에 특정 변수를 지정해 주면 해당 변수값에 따라 막대의 색상을 다르게 표현하게 됩니다.

Code로 보는 시각화

*1개 변수의 빈도수

# origin 의 빈도수 구하기
df["origin"].value_counts()

*2개 이상의 변수에 대한 빈도수

# countplot 으로 origin 의 빈도수를 시각화 하고 cylinders 로 다른 색상으로 표현하기
sns.countplot(data=df, x="origin", hue="cylinders")

# countplot 으로 cylinders 의 빈도수를 시각화 하고 origin 으로 다른 색상으로 표현하기
sns.countplot(data=df, x="cylinders", hue="origin")

# pd.crosstab 으로 시각화한 값 직접 구하기
pd.crosstab(df["origin"],df["cylinders"])

좋은 웹페이지 즐겨찾기