범주형과 수치형변수를 박스플롯으로 시각화
학습 목표
범주형과 수치형변수를 박스플롯으로 그리고 사분위 수와 이상치를 알아봅니다.
핵심 키워드
boxplot과 사분위수
df.groupby()
Point
범주형과 수치형변수를 박스플롯으로 그리고 사분위수와 이상치를 알아보기
boxplot과 사분위수를 알아보고 boxplot 내부에 사분위수가 어떻게 표현되는지 알아보기
df.groupby().describe()를 통해 범주형 값으로 그룹화를 하고 개별 범주 값에 대한 기술 통계값을 구해 boxplot과 비교
boxplot와 사분위수
# boxplot 으로 origin 별 mpg 의 기술통계 값 구하기
sns.boxplot(data=df, x="origin", y="mpg")
# groupby로 origin 값에 따른 mpg의 기술통계 구하기
# 결과를 변수에 할당하여 재사용하기
origin_desc= df.groupby("origin")["mpg"].describe()
origin_desc
박스플롯 이해하기
europe = origin_desc.loc["europe"]
europe
# IQR, 이상치를 제외한 최댓값, 최솟값 구하기
Q3 = europe["75%"]
Q1 = europe["25%"]
IQR = Q3 - Q1
OUT_MAX = Q3 + (1.5 * IQR)
OUT_MIN = Q1 - (1.5 * IQR)
OUT_MAX, OUT_MIN #(40.625, 14.0250000000000002)
*boxenplot로 그리기
# boxenplot 그리기
sns.boxenplot(data=df, x="origin", y="mpg")
*violinplot 그리기
# violinplot 그리기
sns.violinplot(data=df, x="origin", y="mpg")
Author And Source
이 문제에 관하여(범주형과 수치형변수를 박스플롯으로 시각화), 우리는 이곳에서 더 많은 자료를 발견하고 링크를 클릭하여 보았다 https://velog.io/@qsdcfd/범주형과-수치형변수를-박스플롯으로-시각화저자 귀속: 원작자 정보가 원작자 URL에 포함되어 있으며 저작권은 원작자 소유입니다.
우수한 개발자 콘텐츠 발견에 전념 (Collection and Share based on the CC Protocol.)