통계학의 필기 #1 통계 기술
이 글은 통계학에서 데이터 요약 방법을 기술하는 기초를 써야 한다.
기본 용어
총체적
모수
추출/sampling
표본
샘플 수/number of samples
샘플 크기
관측값/observation
통계량/statistic
추출법
확률 추출법과 비확률 추출법은 크게 두 종류로 나뉜다.
다음은 확률 추출법의 예이다.
무작위 표본 추출
단순 무작위 추출법
분층 추출법
집락 추출법/cluster sampling
데이터 형식
양적 데이터
이산형 변수
연속 변수
품질 데이터
가상 변수/dummy variable
도수 분포
계급
클래스/class value
도수
도수 분포
대응 계급과 도수를 통해 데이터의 편차를 개괄하는 방법.
질 데이터의 도수 분포
> table(iris$Species)
setosa versicolor virginica
50 50 50
※ 이후의 R개 샘플은 표준 데이터 세트의 아이리스 사용데이터의 도수 분포를 재다
hist 함수의 반환값은 대상이며 다음 키로 확인할 수 있습니다.
key
$breaks
계급 구분$counts
도수> h <- hist(iris$Petal.Width)
> h$breaks
[1] 0.0 0.2 0.4 0.6 0.8 1.0 1.2 1.4 1.6 1.8 2.0 2.2 2.4 2.6
> h$counts
[1] 34 14 2 0 7 8 21 16 14 11 9 11 3
상대 도수
각 계급의 도수는 전체의 비례를 차지한다.
\text{상대 도수]=\rac{text{레벨별 도수] {text{도수의 합계}
> h <- hist(iris$Petal.Width)
> h$counts / length(iris$Petal.Width)
[1] 0.22666667 0.09333333 0.01333333 0.00000000 0.04666667 0.05333333
[7] 0.14000000 0.10666667 0.09333333 0.07333333 0.06000000 0.07333333
[13] 0.02000000
누적 상대 도수
한 계급에서 한 계급까지의 상대 도수의 누적과
데이터 양 분포표.프레임으로 만든 샘플입니다.
> h <- hist(iris$Petal.Width)
> rf <- h$counts / length(iris$Petal.Width)
> cumsum(rf)
[1] 0.2266667 0.3200000 0.3333333 0.3333333 0.3800000 0.4333333
[7] 0.5733333 0.6800000 0.7733333 0.8466667 0.9066667 0.9800000
[13] 1.0000000
참조: R로 도수 분포표 만들기 - R 프로그래밍 소품평균 및 중간값
평균치
기호
의향
\bar{x}
데이터 평균
\mu
총체적 평균
산술 평균, 가중 평균 등이 있고 계산 방법이 다르다.
산술 평균
모든 데이터를 더한 후 데이터 총수의 수치로 나눈다.
\begin{aligned}
\bar{x}&=\frac{1}{n}\sum_{i=1}^{n}x_{i}\\
&=\frac{x_{1}+x_{2}+\cdots+x_{n}}{n}
\end{aligned}
# histの戻り値をdata.frameにする
> h <- hist(iris$Petal.Width)
> class_breaks <- h$breaks
> classes <- NULL
> for(i in 1:length(h$counts)){
+ classes[i] <- paste(class_breaks[i], "~", class_breaks[i + 1])
+ }
> data_frame <- data.frame(class=classes, freq=h$counts)
> data_frame
class freq
1 0 ~ 0.2 34
2 0.2 ~ 0.4 14
3 0.4 ~ 0.6 2
4 0.6 ~ 0.8 0
5 0.8 ~ 1 7
6 1 ~ 1.2 8
7 1.2 ~ 1.4 21
8 1.4 ~ 1.6 16
9 1.6 ~ 1.8 14
10 1.8 ~ 2 11
11 2 ~ 2.2 9
12 2.2 ~ 2.4 11
13 2.4 ~ 2.6 3
# 相対度数、累積相対度数の列を追加
> rf <- h$counts / length(iris$Petal.Width)
> data_frame <- transform(data_frame, "relfreq"=rf, "cumsum"=cumsum(rf))
> data_frame
class freq relfreq cumsum
1 0 ~ 0.2 34 0.22666667 0.2266667
2 0.2 ~ 0.4 14 0.09333333 0.3200000
3 0.4 ~ 0.6 2 0.01333333 0.3333333
4 0.6 ~ 0.8 0 0.00000000 0.3333333
5 0.8 ~ 1 7 0.04666667 0.3800000
6 1 ~ 1.2 8 0.05333333 0.4333333
7 1.2 ~ 1.4 21 0.14000000 0.5733333
8 1.4 ~ 1.6 16 0.10666667 0.6800000
9 1.6 ~ 1.8 14 0.09333333 0.7733333
10 1.8 ~ 2 11 0.07333333 0.8466667
11 2 ~ 2.2 9 0.06000000 0.9066667
12 2.2 ~ 2.4 11 0.07333333 0.9800000
13 2.4 ~ 2.6 3 0.02000000 1.0000000
가중 평균
각 데이터의 값에 대해 중요도 등을 가중한 후 계산한 평균값.
\begin{aligned}
\bar{x}&=\frac{\sum_{i=1}^{n} w_{i} x_{i}}{\sum_{i=1}^{n} w_{i}}\\
&=\frac{w_{1} x_{1}+w_{2} x_{2}+\ldots+w_{n} x_{n}}{w_{1}+w_{2}+\ldots+w_{n}}
\end{aligned}
> mean(iris$Petal.Width)
[1] 1.199333
중간값/median
크기에 따라 배열된 데이터의 한가운데 값.
데이터가 짝수인 상황에서 가운데로 오는 두 값의 평균치는 중앙값이다.
> freq <- rle(iris$Petal.Width)
> freq
Run Length Encoding
lengths: int [1:118] 5 1 1 2 1 2 2 1 2 3 ...
values : num [1:118] 0.2 0.4 0.3 0.2 0.1 0.2 0.1 0.2 0.4 0.3 ...
> weighted.mean(freq$values, freq$lengths)
[1] 1.199333
평균치와 중앙치의 관계와 직사각형도 오류평균치와 중치가 같다: 좌우 대칭 분포
중간값>평균값: 왼쪽 오류 분포(skewed to the left)
중간값<평균: 오른쪽 분산(skewed to the right)
4분위수와 편차값
사분위수
데이터를 크기순으로 배열하고 데이터 총수를 4등분으로 나눌 때의 구분점을 4분위수라고 한다.
처음부터 전체 n%에 있는 값을 n백분율(percentile)이라고 부른다.
첫 4분의 1
세컨드 쿼터
서너 자리
4분위 범위/interquartile range(IQR)
첫 번째 4분의 1에서 세 번째 4분의 1까지의 범위.
50% 의 데이터를 포함하는 구간을 가리킨다.
IQR = Q_{3} - Q_{1}
편차 값 /outlier
다른 데이터와 차이가 매우 큰 값을 가리킨다.
데이터에서 가장 작은 값과 가장 큰 값을 각각 최소값과 최대값이라고 하는데 편차 값은 이 범위 밖에서 비정상적인 값이다.
편차 값에서 그 원인을 아는 것을 이상값이라고 한다.
\begin{aligned}
\text{최대 임계값} = Q{3} + 1.5 * IQR\\
\text{최소 임계값} = Q{1} - 1.5 * IQR
\end{aligned}
> median(iris$Petal.Width)
[1] 1.3
데이터 편차 상황
편차 / deviation
데이터가 평균치에서 얼마나 먼지를 나타낸다.데이터와 평균치의 차이.
전체 평균치와의 차이도 나타낼 수 있다.
\text{편차]=x{i}-\bar{x}
기호
의향
x_{i}
데이터 값
\bar{x}
데이터 평균
> summary(iris$Sepal.Width)
Min. 1st Qu. Median Mean 3rd Qu. Max.
2.000 2.800 3.000 3.057 3.300 4.400
편차 제곱 및 /sum of squared deviations
각 편차에 2를 곱한 값.
데이터의 개수가 많을수록 값도 커진다(분산 제거)
\begin{aligned}
s &=\sum_{i=1}^{n}\left(x_{i}-\bar{x}\right)^{2}\\
&=\left(x_{1}-\bar{x}\right)^{2}+\left(x_{2}-\bar{x}\right)^{2}+\cdots+\left(x_{n}-\bar{x}\right)^{2}
\end{aligned}
> x <- iris$Sepal.Width
> x - mean(x)
[1] 0.44266667 -0.05733333 0.14266667 0.04266667 0.54266667 0.84266667
[7] 0.34266667 0.34266667 -0.15733333 0.04266667 0.64266667 0.34266667
...
흩어지다
통계 데이터에 파동 상황을 나타내다.편차 제곱과 데이터 총수를 나누다.
최소값은 0으로 숫자가 클수록 편차가 크다는 뜻이다.
전체 견본에 비해 표본 분산은 견본의 수량이 비교적 적은 상황에서 모분산보다 작다.그걸 수정한 건 편차가 없는 분산이야.
표본이 분산되다
표본의 방차.
s^{2}=\frac{1}{n}\sum_{i=1}^{n}\left(x_{i}-\bar{x}\right)^{2}
어느 한쪽으로 치우치지 않다
총체적 분산\sigma^{2}의 추산값을 나타낸다.
U^{2}=\frac{1}{n-1}\sum_{i=1}^{n}\left(x_{i}-\bar{x}\right)^{2}
> x <- iris$Sepal.Width
> sum((x - mean(x))^2)
[1] 28.30693
var 함수는 비편차 색산을 사용하기 때문에 모분산을 구할 때* (n - 1) / n
를 교정합니다.표준 편차
방차와 표준 편차 단위가 다르기 때문에 둘 다 편차 상황을 나타내는 통계량이다.
편차 제곱의 제곱을 기초로 하다.
s=\sqrt{\frac{1}{n-1}\sum_{i=1}^{n}\left(x_{i}-\bar{x}\right)^{2}}
전체 표준 편차는\sigma로 표시됩니다.
\sigma=\sqrt{\text { population variance }}
> x <- iris$Sepal.Width
> sum((x - mean(x))^2) / (length(x) - 1)
[1] 0.1899794
# または、
> var(x)
[1] 0.1899794
표준화/standardization
데이터의 항목과 단위가 다른 경우 규격을 통일해야 하기 때문에 데이터를 평균 0으로 전환하고 1로 분산해야 한다.변환된 데이터를 Z득점이라고 한다.
정규화, 기준화라고도 불린다.
Z=\frac{x-\mu}{\sigma}
> x <- iris$Sepal.Width
> sqrt(sum((x - mean(x))^2) / (length(x) - 1))
[1] 0.4358663
# または、
> sd(x)
[1] 0.4358663
scale 함수는 편차 색산을 사용하지 않도록 주의하십시오참고 문헌
Reference
이 문제에 관하여(통계학의 필기 #1 통계 기술), 우리는 이곳에서 더 많은 자료를 발견하고 링크를 클릭하여 보았다 https://zenn.dev/okauuu/articles/4e5cdbd3644387텍스트를 자유롭게 공유하거나 복사할 수 있습니다.하지만 이 문서의 URL은 참조 URL로 남겨 두십시오.
우수한 개발자 콘텐츠 발견에 전념 (Collection and Share based on the CC Protocol.)