빈도 분포표와 히스토그램

8099 단어 통계학

도수 분포표



도수 분포표란, 수집한 「데이터의 분포 상태」(데이터의 중심이나 흩어져 있는 모습)를 알기 위해서, 어느 폭마다 구분하여 그 안에 포함되는 데이터의 개수를 보기 위해 작성한 표 라고 말합니다.

우선 간단한 50개의 데이터(단위: 사람)를 준비합니다.

data1
data1 <- c(67, 58, 75, 89, 46, 62, 56, 79, 60, 30, 76, 64, 52, 66, 42, 
81, 63, 59, 65, 77, 38, 86, 64, 70, 50, 93, 78, 76, 57, 68, 98, 64, 
55, 66, 53, 82, 62, 73, 60, 51, 49, 67, 56, 75, 85, 61, 58, 44, 79, 65)

data1보다도 분포표를 작성하면 다음과 같습니다.


계급(단위: 사람)
계급값
빈도
상대 빈도
누적 도수
누적 상대 빈도


30 이상 ~ 40 미만
35
2
0.04
2
0.04

40 이상 ~ 50 미만
45
4
0.08
6
0.12

50 이상 ~ 60 미만
55
11
0.22
17
0.34

60 이상 ~ 70 미만
65
16
0.32
33
0.66

70 이상 ~ 80 미만
75
10
0.20
43
0.86

80 이상 ~ 90 미만
85
5
0.10
48
0.96

90 이상 ~ 100 미만
95
2
0.04
50
1.00


각 항목에 대해 설명합니다.

계급



빈도를 집계하는 구간
적절한 계급의 수를 설정하기 위해서는 「스타제스의 공식」이 이용됩니다.
k=1+log_2N
k는 계급 수를 나타내고 N는 데이터 수를 나타냅니다.
공식 도수 분포표 작성 절차에서는 데이터 범위(최대값-최소값)를 스타제스 공식에서 계산한 계급 수로 나누어 계급 폭을 구합니다.

이번에는 아래와 같이 계급의 폭을 요구했습니다.
範囲:98-30=68 階級の数:1+log_250=1+5.643…≒7
階級の幅:\frac{範囲}{階級の幅}=\frac{68}{7}=9.714…≒10

계급값



각 계급의 중앙값이며 각 계급을 「대표」하는 값

상대 빈도



빈도를 총 빈도 (모든 데이터 수)로 나눈 값
무작위로 하나의 데이터를 추출하는 경우 상대 빈도는 해당 데이터가 한 계급에 속하는 확률과 일치합니다.

누적 도수



도수를 작은 계급에서 누적한 값

누적 상대 빈도



누적 도수를 총 도수로 나눈 값
가장 마지막 계급의 누적 상대 도수는 1 가 됩니다.

히스토그램



도수 분포표를 이용하여, 세로축에 도수·가로축에 계급을 취해, 그래프화한 것
칼 피어슨에 의해 용어가 창안되었습니다.

히스토그램의 형상보다 데이터 분포의 특징을 정리할 때는 다음의 ①~⑤의 포인트에 유의합니다.

① 데이터의 중심은 어느 근처에 있는지
② 데이터의 흩어짐은 크거나 작습니까?
③ 분포의 피크(정상)는 몇 존재하는가
④ 데이터의 분포는 좌우 대칭인가 ▶︎오른쪽으로 왜곡된 분포·좌우 대칭인 분포·왼쪽으로 왜곡된 분포
⑤ 이상값은 존재하는가

data1에서 히스토그램을 만들면 다음과 같습니다.
hist(data1, freq = TRUE, ylim = c(0, 20),
     xlab = "人数",
     ylab = "度数",
     main = "ヒストグラム")



이번 히스토그램을 ①~⑤의 포인트에 따라 고찰하면, ①데이터의 중심은 60~70의 계급, ②데이터의 흩어짐 정도는 보통, ③분포의 피크는 1개로 단봉성의 분포, ④데이터의 분포는 거의 좌우 대칭, ⑤ 이상값은 존재하지 않는다는 것을 알 수 있습니다.

히스토그램의 각 기둥의 상변의 중심을 직선으로 연결한 그래프를 도수 삼각형(frequency polygon)이라고 하고, 각 계급의 상한과 누적 상대 도수를 직선으로 연결한 그래프를 누적 상대 도수 꺾은선이라고 합니다.

막대 그래프와 히스토그램


  • 막대 그래프 "독립 이산 변수 데이터의 크고 작은 비교 및 ​​요인 변수 분포 요약"
  • 히스토그램 "연속 변수의 데이터 분포 표시"

  • 단, 이산변수에서도 순서에 의미가 있는 경우(연령·사이코로·질문지 조사에 의한 5점 척도 등)는 연속변수 취급하는 경우가 있으며, 이산변수의 도수 분포를 히스토그램으로 나타낼 수 있습니다.

    참고문헌


  • 예제로 배우는 초보로부터의 통계학 제2판
  • 이산 변수와 연속 변수 - 어른의 통계 노트(순차적)
  • 좋은 웹페이지 즐겨찾기