범주형과 수치형변수를 박스플롯으로 시각화

학습 목표

범주형과 수치형변수를 박스플롯으로 그리고 사분위 수와 이상치를 알아봅니다.


핵심 키워드

boxplot과 사분위수

df.groupby()


Point

범주형과 수치형변수를 박스플롯으로 그리고 사분위수와 이상치를 알아보기

boxplot과 사분위수를 알아보고 boxplot 내부에 사분위수가 어떻게 표현되는지 알아보기

df.groupby().describe()를 통해 범주형 값으로 그룹화를 하고 개별 범주 값에 대한 기술 통계값을 구해 boxplot과 비교


boxplot와 사분위수

# boxplot 으로 origin 별 mpg 의 기술통계 값 구하기
sns.boxplot(data=df, x="origin", y="mpg")

# groupby로 origin 값에 따른 mpg의 기술통계 구하기
# 결과를 변수에 할당하여 재사용하기
origin_desc= df.groupby("origin")["mpg"].describe()
origin_desc


박스플롯 이해하기

europe = origin_desc.loc["europe"]
europe

# IQR, 이상치를 제외한 최댓값, 최솟값 구하기

Q3 = europe["75%"]

Q1 = europe["25%"]
IQR = Q3 - Q1

OUT_MAX = Q3 + (1.5 * IQR)
OUT_MIN = Q1 - (1.5 * IQR)
OUT_MAX, OUT_MIN #(40.625, 14.0250000000000002)

*boxenplot로 그리기

# boxenplot 그리기
sns.boxenplot(data=df, x="origin", y="mpg")

*violinplot 그리기

# violinplot 그리기
sns.violinplot(data=df, x="origin", y="mpg")

좋은 웹페이지 즐겨찾기