수치형 자료의 요약
범주형 자료와 달리 수치로 구성되어 있기에 통계값을 사용한 요약이 가능함
시각적 자료로는 이론적 근거 제시가 쉽지 않은 단점을 보완함
많은 양의 자료를 의미있는 수치로 요약하여 대략적인 분포상태를 파악 가능
그래프 등을 꼭 그려서 보여주지 않아도 통계값 수치를 통해 의미 파악하기가 더 좋음
- 평균
import numpy as np
np.mean(array)
# 각 커피의 카페인 함량의 평균을 구하기
coffee=np.array([202,177,121,148,89,121])
cf_mean = np.mean(coffee)
관측값들을 대표할 수 있는 통계값
수치형 자료의 통계값 중 가장 많이 사용되는 방법
관측값의 산술평균으로 사용
통계에서 기초적인 통계 수치로 가장 많이 사용
(단점) 극단적으로 큰 값이나 작은 값의 영향을 많이 받음
- 퍼진 정도의 측도
평균만으로 분포 파악 역부족
-> 평균 외 분포가 퍼진 정도를 측도할 수치 필요
-> 분산, 표준편차 등을 퍼진 정도의 측도로 사용
분산
from statistics import variance
variance()
자료가 얼마나 흩어졌는지 숫자로 표현
각 관측값이 자료의 평균으로부터 떨어진 정도
표준편차
from statistics import stdev
stdev()
from statistics import stdev
import numpy as np
coffee = np.array([202,177,121,148,89,121,137,158])
"""
1. 표준편차 계산
"""
cf_std = stdev(coffee)
# 소수점 둘째 자리까지 반올림하여 출력합니다.
print("Sample std.Dev : ", round(cf_std,2))
분산의 단위 = 관측값의 단위의 제곱
-> 관측값의 단위와 불일치
분산의 양의 제곱근은 관측값과 단위가 일치
분산의 양의 제곱근을 표준편차라 하고 s로 표기
-
히스토그램 (시각화)
수치형 자료를 일정한 범위를 갖는 범주로 나누고 막대그래프와 같은 방식으로 그림도수 비교 > 범주-막대그래프 / 수치-히스토그램
X축 : 계급 - 계급을 촘촘하게 만들 수도 있고 더 넓은 범위로 만들 수도.
Y축 : 빈도히스토그램 특징
- 자료의 분포를 알 수 있음
- 계급구간과 막대의 높이로 그림
- 도수, 상대도수를 막대 높이로 사용
import numpy as np import pandas as pd import matplotlib.pyplot as plt from elice_utils import EliceUtils elice_utils = EliceUtils()
카페인 데이터
coffee = np.array([202,177,121,148,89,121,137,158])
fig, ax = plt.subplots()
"""
1. 히스토그램을 그리는 코드를 작성해 주세요
"""
#plt.hist(coffee)
plt.hist(coffee, bins=15)
bins 값을 주면 계급의 개수를 그에 맞게 설정
히스토그램을 출력합니다.
plt.show()
fig.savefig("hist_plot.png")
elice_utils.send_image("hist_plot.png")
Author And Source
이 문제에 관하여(수치형 자료의 요약), 우리는 이곳에서 더 많은 자료를 발견하고 링크를 클릭하여 보았다 https://velog.io/@danceintherain/수치형-자료의-요약저자 귀속: 원작자 정보가 원작자 URL에 포함되어 있으며 저작권은 원작자 소유입니다.
우수한 개발자 콘텐츠 발견에 전념 (Collection and Share based on the CC Protocol.)