빈도 분포표와 히스토그램
8099 단어 통계학
도수 분포표
도수 분포표란, 수집한 「데이터의 분포 상태」(데이터의 중심이나 흩어져 있는 모습)를 알기 위해서, 어느 폭마다 구분하여 그 안에 포함되는 데이터의 개수를 보기 위해 작성한 표 라고 말합니다.
우선 간단한 50개의 데이터(단위: 사람)를 준비합니다.
data1data1 <- c(67, 58, 75, 89, 46, 62, 56, 79, 60, 30, 76, 64, 52, 66, 42,
81, 63, 59, 65, 77, 38, 86, 64, 70, 50, 93, 78, 76, 57, 68, 98, 64,
55, 66, 53, 82, 62, 73, 60, 51, 49, 67, 56, 75, 85, 61, 58, 44, 79, 65)
data1보다도 분포표를 작성하면 다음과 같습니다.
계급(단위: 사람)
계급값
빈도
상대 빈도
누적 도수
누적 상대 빈도
30 이상 ~ 40 미만
35
2
0.04
2
0.04
40 이상 ~ 50 미만
45
4
0.08
6
0.12
50 이상 ~ 60 미만
55
11
0.22
17
0.34
60 이상 ~ 70 미만
65
16
0.32
33
0.66
70 이상 ~ 80 미만
75
10
0.20
43
0.86
80 이상 ~ 90 미만
85
5
0.10
48
0.96
90 이상 ~ 100 미만
95
2
0.04
50
1.00
각 항목에 대해 설명합니다.
계급
빈도를 집계하는 구간
적절한 계급의 수를 설정하기 위해서는 「스타제스의 공식」이 이용됩니다.
k=1+log_2N
k
는 계급 수를 나타내고 N
는 데이터 수를 나타냅니다.
공식 도수 분포표 작성 절차에서는 데이터 범위(최대값-최소값)를 스타제스 공식에서 계산한 계급 수로 나누어 계급 폭을 구합니다.
이번에는 아래와 같이 계급의 폭을 요구했습니다.
範囲:98-30=68 階級の数:1+log_250=1+5.643…≒7
階級の幅:\frac{範囲}{階級の幅}=\frac{68}{7}=9.714…≒10
계급값
각 계급의 중앙값이며 각 계급을 「대표」하는 값
상대 빈도
빈도를 총 빈도 (모든 데이터 수)로 나눈 값
무작위로 하나의 데이터를 추출하는 경우 상대 빈도는 해당 데이터가 한 계급에 속하는 확률과 일치합니다.
누적 도수
도수를 작은 계급에서 누적한 값
누적 상대 빈도
누적 도수를 총 도수로 나눈 값
가장 마지막 계급의 누적 상대 도수는 1
가 됩니다.
히스토그램
도수 분포표를 이용하여, 세로축에 도수·가로축에 계급을 취해, 그래프화한 것
칼 피어슨에 의해 용어가 창안되었습니다.
히스토그램의 형상보다 데이터 분포의 특징을 정리할 때는 다음의 ①~⑤의 포인트에 유의합니다.
① 데이터의 중심은 어느 근처에 있는지
② 데이터의 흩어짐은 크거나 작습니까?
③ 분포의 피크(정상)는 몇 존재하는가
④ 데이터의 분포는 좌우 대칭인가 ▶︎오른쪽으로 왜곡된 분포·좌우 대칭인 분포·왼쪽으로 왜곡된 분포
⑤ 이상값은 존재하는가
data1에서 히스토그램을 만들면 다음과 같습니다.
hist(data1, freq = TRUE, ylim = c(0, 20),
xlab = "人数",
ylab = "度数",
main = "ヒストグラム")
이번 히스토그램을 ①~⑤의 포인트에 따라 고찰하면, ①데이터의 중심은 60~70의 계급, ②데이터의 흩어짐 정도는 보통, ③분포의 피크는 1개로 단봉성의 분포, ④데이터의 분포는 거의 좌우 대칭, ⑤ 이상값은 존재하지 않는다는 것을 알 수 있습니다.
히스토그램의 각 기둥의 상변의 중심을 직선으로 연결한 그래프를 도수 삼각형(frequency polygon)이라고 하고, 각 계급의 상한과 누적 상대 도수를 직선으로 연결한 그래프를 누적 상대 도수 꺾은선이라고 합니다.
막대 그래프와 히스토그램
data1 <- c(67, 58, 75, 89, 46, 62, 56, 79, 60, 30, 76, 64, 52, 66, 42,
81, 63, 59, 65, 77, 38, 86, 64, 70, 50, 93, 78, 76, 57, 68, 98, 64,
55, 66, 53, 82, 62, 73, 60, 51, 49, 67, 56, 75, 85, 61, 58, 44, 79, 65)
k=1+log_2N
範囲:98-30=68 階級の数:1+log_250=1+5.643…≒7
階級の幅:\frac{範囲}{階級の幅}=\frac{68}{7}=9.714…≒10
도수 분포표를 이용하여, 세로축에 도수·가로축에 계급을 취해, 그래프화한 것
칼 피어슨에 의해 용어가 창안되었습니다.
히스토그램의 형상보다 데이터 분포의 특징을 정리할 때는 다음의 ①~⑤의 포인트에 유의합니다.
① 데이터의 중심은 어느 근처에 있는지
② 데이터의 흩어짐은 크거나 작습니까?
③ 분포의 피크(정상)는 몇 존재하는가
④ 데이터의 분포는 좌우 대칭인가 ▶︎오른쪽으로 왜곡된 분포·좌우 대칭인 분포·왼쪽으로 왜곡된 분포
⑤ 이상값은 존재하는가
data1에서 히스토그램을 만들면 다음과 같습니다.
hist(data1, freq = TRUE, ylim = c(0, 20),
xlab = "人数",
ylab = "度数",
main = "ヒストグラム")
이번 히스토그램을 ①~⑤의 포인트에 따라 고찰하면, ①데이터의 중심은 60~70의 계급, ②데이터의 흩어짐 정도는 보통, ③분포의 피크는 1개로 단봉성의 분포, ④데이터의 분포는 거의 좌우 대칭, ⑤ 이상값은 존재하지 않는다는 것을 알 수 있습니다.
히스토그램의 각 기둥의 상변의 중심을 직선으로 연결한 그래프를 도수 삼각형(frequency polygon)이라고 하고, 각 계급의 상한과 누적 상대 도수를 직선으로 연결한 그래프를 누적 상대 도수 꺾은선이라고 합니다.
막대 그래프와 히스토그램
단, 이산변수에서도 순서에 의미가 있는 경우(연령·사이코로·질문지 조사에 의한 5점 척도 등)는 연속변수 취급하는 경우가 있으며, 이산변수의 도수 분포를 히스토그램으로 나타낼 수 있습니다.
참고문헌
Reference
이 문제에 관하여(빈도 분포표와 히스토그램), 우리는 이곳에서 더 많은 자료를 발견하고 링크를 클릭하여 보았다 https://qiita.com/lycopene_/items/3f32e8957798c65af0c5텍스트를 자유롭게 공유하거나 복사할 수 있습니다.하지만 이 문서의 URL은 참조 URL로 남겨 두십시오.
우수한 개발자 콘텐츠 발견에 전념 (Collection and Share based on the CC Protocol.)