표준편차란? . . ? 내가 알기 때문에 누구나 알 수 있다! !

자료나 그래프로 표준편차라고 하는 것은, 한 번은 보았던 것이 있다고 생각합니다만, 실제로 무엇입니까? 라고 생각하는 분도 있다고 생각합니다.

지금은 Excel 등으로 표준 기능으로도 사용할 수 있습니다. 통계 자료 작성이나 데이터를 분석하여 활용할 때 가장 간단한 계기의 부분이 될 수 있다고 생각합니다.

표준편차란?



표준 편차는 데이터의 변동을 나타내는 값입니다.


좀 더 정의하면 분산의 양의 제곱근을 표준편차라고 합니다.



음, 사실 그런 것은 아무래도 좋습니다. 어떤 때에 사용할 수 있어 무엇을 할 수 있는가입니다.

어떤 시간에 사용할 수 있습니까?



예를 들어 연간 평균 500만 개의 회사가 있다고 가정합니다.


"내역"
A
B
C
D
평균


A사
510
480
520
 490
500

B사
 100
 100
900
900
500


둘 다 평균을 보면 500이지만, 안을 보면 끔찍합니다.
이런 숫자를 보면 평균이 반드시 신용할 수 없는 것을 알 수 있습니다.

이때 평균과의 오차가 어느 정도인가? 이해하면 평균 데이터를 얼마나 신용할 수 있는지 알 수 있습니다.
그 발상으로부터 태어난 것이 분산입니다.

분산



분산은 데이터의 변동을 나타내는 값입니다.
표준 편차와 같은 싸움! 라고 생각된다고 생각합니다만, 차이는 나중에 설명합니다.



분산은 왜, 대상 데이터의 제곱인가?
이것을 해보면 알 수 있습니다.

평균과의 오차를 구하려고 하면,


"내역"
A
B
C
D
평균


A사
510
480
520
 490
500

평균과의 오차
+10
-20
+20
-10
0

B사
 100
 100
900
900
500

평균과의 오차
-400
-400
+400
+400
0


평균과의 오차의 평균은 0이 되어 버립니다. 이는 플러스 값과 마이너스 값으로 상쇄되기 때문입니다.

이 상황을 피하기 위해 평균과의 오차 값을 제곱합니다.


"내역"
A
B
C
D
평균


A사
510
480
520
 490
500

평균과의 오차
+10
-20
+20
-10
0

평균 오차^2
100
400
400
100
250

B사
 100
 100
900
900
500

평균과의 오차
-400
-400
+400
+400
0

평균 오차^2
160000
160000
160000
160000
160000


이 250과 160000은 분산입니다.

다만, 이것으로는 확실히 오지 않습니다. 왜냐하면 원래 데이터에 대해 제곱되어 버리므로 단위가 다르게 되어 있습니다.

이를 위해 원래 데이터의 단위로 되돌리기 위해 분산에 제곱근합니다.
여기가 표준 편차와 분산의 차이입니다. 대상 데이터와 같은 기준으로 비교하기 위한 것이 표준편차라는 이미지입니다.


고장
A
B
C
D
평균
분산
표준편차


A사
510
480
520
 490
500
250
15.8

B사
 100
 100
900
900
500
160000
400


이제 오차의 평균을 알 수 있습니다.

표준 편차의 값이 작을수록 평균값을 신뢰할 수 있다는 지표가 됩니다.

좋은 웹페이지 즐겨찾기