통계학의 필기 #1 통계 기술

28546 단어 R통계학tech
통계학에 들어갔기 때문에 메모를 정리했다.
이 글은 통계학에서 데이터 요약 방법을 기술하는 기초를 써야 한다.

기본 용어


  • 총체적
  • 표본을 추출하는 모체로서의 대상물의 집합

  • 모수
  • 전체적으로 가지고 있는 통계량.어머니 평균과 어머니 분산 등

  • 추출/sampling
  • 전체 견본에서 표본 선택

  • 표본
  • 전체 샘플에서 추출한 데이터의 집합

  • 샘플 수/number of samples
  • 표본 수량.전체 추출된 데이터 집합의 수량

  • 샘플 크기
  • 표본의 크기.표본 데이터 개수

  • 관측값/observation
  • 데이터 값

  • 통계량/statistic
  • 데이터에서 계산할 수 있는 값이나 함수.표본 평균, 표본 분산, 편차 분산 등
  • 추출법


    확률 추출법과 비확률 추출법은 크게 두 종류로 나뉜다.
    다음은 확률 추출법의 예이다.

  • 무작위 표본 추출
  • 전체 샘플에서 샘플을 무작위로 추출하는 방법

  • 단순 무작위 추출법
  • 무작위 수표를 사용하여 전체 샘플에서 필요한 수량의 샘플을 추출하는 방법

  • 분층 추출법
  • 전체 견본을 몇 층으로 나누어 각 층에서 무작위로 추출하는 방법

  • 집락 추출법/cluster sampling
  • 전체 견본을 약간의 견본 집합(집단)으로 나누어 무작위로 약간의 집단을 추출하고 그 안에 포함된 모든 견본을 추출하는 방법
  • 데이터 형식


  • 양적 데이터
  • 정량 데이터.양변수
  • 라고도 부른다
  • e.g. 인구, 신장, 금액

  • 이산형 변수
  • 점프 값이 있는 데이터

  • 연속 변수
  • 연속값을 획득한 데이터

  • 품질 데이터
  • 정성 데이터.범주 데이터라고도 부릅니다
  • .
  • e.g. 혈액형, 거주지역, 설문지 선택

  • 가상 변수/dummy variable
  • 범주 데이터 또는 2치 유형 데이터와 같은 데이터를 0 또는 1로 계량화
  • 도수 분포


  • 계급
  • 개체가 가지고 있는 어떤 값의 구간

  • 클래스/class value
  • 레벨별 중앙값

  • 도수
  • 레벨별 데이터 개수
  • 도수 분포


    대응 계급과 도수를 통해 데이터의 편차를 개괄하는 방법.

    질 데이터의 도수 분포


    > table(iris$Species)
        setosa versicolor  virginica 
            50         50         50 
    
    ※ 이후의 R개 샘플은 표준 데이터 세트의 아이리스 사용

    데이터의 도수 분포를 재다


    hist 함수의 반환값은 대상이며 다음 키로 확인할 수 있습니다.
    key$breaks계급 구분$counts도수
    > h <- hist(iris$Petal.Width)
    > h$breaks
     [1] 0.0 0.2 0.4 0.6 0.8 1.0 1.2 1.4 1.6 1.8 2.0 2.2 2.4 2.6
    > h$counts
     [1] 34 14  2  0  7  8 21 16 14 11  9 11  3
    

    상대 도수


    각 계급의 도수는 전체의 비례를 차지한다.
    \text{상대 도수]=\rac{text{레벨별 도수] {text{도수의 합계}
    > h <- hist(iris$Petal.Width)
    > h$counts / length(iris$Petal.Width)
     [1] 0.22666667 0.09333333 0.01333333 0.00000000 0.04666667 0.05333333
     [7] 0.14000000 0.10666667 0.09333333 0.07333333 0.06000000 0.07333333
    [13] 0.02000000
    

    누적 상대 도수


    한 계급에서 한 계급까지의 상대 도수의 누적과
    데이터 양 분포표.프레임으로 만든 샘플입니다.
    > h <- hist(iris$Petal.Width)
    > rf <- h$counts / length(iris$Petal.Width)
    > cumsum(rf)
     [1] 0.2266667 0.3200000 0.3333333 0.3333333 0.3800000 0.4333333
     [7] 0.5733333 0.6800000 0.7733333 0.8466667 0.9066667 0.9800000
    [13] 1.0000000
    
    참조: R로 도수 분포표 만들기 - R 프로그래밍 소품

    평균 및 중간값


    평균치


    기호
    의향
    \bar{x}
    데이터 평균
    \mu
    총체적 평균
    산술 평균, 가중 평균 등이 있고 계산 방법이 다르다.

    산술 평균


    모든 데이터를 더한 후 데이터 총수의 수치로 나눈다.
    \begin{aligned}
    \bar{x}&=\frac{1}{n}\sum_{i=1}^{n}x_{i}\\
    &=\frac{x_{1}+x_{2}+\cdots+x_{n}}{n}
    \end{aligned}
    # histの戻り値をdata.frameにする
    > h <- hist(iris$Petal.Width)
    > class_breaks <- h$breaks
    > classes <- NULL
    > for(i in 1:length(h$counts)){
    +   classes[i] <- paste(class_breaks[i], "~", class_breaks[i + 1])
    + }
    > data_frame <- data.frame(class=classes, freq=h$counts)
    > data_frame
           class freq
    1    0 ~ 0.2   34
    2  0.2 ~ 0.4   14
    3  0.4 ~ 0.6    2
    4  0.6 ~ 0.8    0
    5    0.8 ~ 1    7
    6    1 ~ 1.2    8
    7  1.2 ~ 1.4   21
    8  1.4 ~ 1.6   16
    9  1.6 ~ 1.8   14
    10   1.8 ~ 2   11
    11   2 ~ 2.2    9
    12 2.2 ~ 2.4   11
    13 2.4 ~ 2.6    3
     
    # 相対度数、累積相対度数の列を追加
    > rf <- h$counts / length(iris$Petal.Width)
    > data_frame <- transform(data_frame, "relfreq"=rf, "cumsum"=cumsum(rf))
    > data_frame
           class freq    relfreq    cumsum
    1    0 ~ 0.2   34 0.22666667 0.2266667
    2  0.2 ~ 0.4   14 0.09333333 0.3200000
    3  0.4 ~ 0.6    2 0.01333333 0.3333333
    4  0.6 ~ 0.8    0 0.00000000 0.3333333
    5    0.8 ~ 1    7 0.04666667 0.3800000
    6    1 ~ 1.2    8 0.05333333 0.4333333
    7  1.2 ~ 1.4   21 0.14000000 0.5733333
    8  1.4 ~ 1.6   16 0.10666667 0.6800000
    9  1.6 ~ 1.8   14 0.09333333 0.7733333
    10   1.8 ~ 2   11 0.07333333 0.8466667
    11   2 ~ 2.2    9 0.06000000 0.9066667
    12 2.2 ~ 2.4   11 0.07333333 0.9800000
    13 2.4 ~ 2.6    3 0.02000000 1.0000000
    

    가중 평균


    각 데이터의 값에 대해 중요도 등을 가중한 후 계산한 평균값.
    \begin{aligned}
    \bar{x}&=\frac{\sum_{i=1}^{n} w_{i} x_{i}}{\sum_{i=1}^{n} w_{i}}\\
    &=\frac{w_{1} x_{1}+w_{2} x_{2}+\ldots+w_{n} x_{n}}{w_{1}+w_{2}+\ldots+w_{n}}
    \end{aligned}
    > mean(iris$Petal.Width)
    [1] 1.199333
    

    중간값/median


    크기에 따라 배열된 데이터의 한가운데 값.
    데이터가 짝수인 상황에서 가운데로 오는 두 값의 평균치는 중앙값이다.
    > freq <- rle(iris$Petal.Width)
    > freq
    Run Length Encoding
      lengths: int [1:118] 5 1 1 2 1 2 2 1 2 3 ...
      values : num [1:118] 0.2 0.4 0.3 0.2 0.1 0.2 0.1 0.2 0.4 0.3 ...
    > weighted.mean(freq$values, freq$lengths)
    [1] 1.199333
    
    평균치와 중앙치의 관계와 직사각형도 오류
    평균치와 중치가 같다: 좌우 대칭 분포
    중간값>평균값: 왼쪽 오류 분포(skewed to the left)
    중간값<평균: 오른쪽 분산(skewed to the right)

    4분위수와 편차값


    사분위수


    데이터를 크기순으로 배열하고 데이터 총수를 4등분으로 나눌 때의 구분점을 4분위수라고 한다.
    처음부터 전체 n%에 있는 값을 n백분율(percentile)이라고 부른다.

  • 첫 4분의 1
  • 25 볼록 패치

  • 세컨드 쿼터
  • 50 볼록점
  • 는 중앙치
  • 와 같다

  • 서너 자리
  • 75 블록
  • 4분위 범위/interquartile range(IQR)


    첫 번째 4분의 1에서 세 번째 4분의 1까지의 범위.
    50% 의 데이터를 포함하는 구간을 가리킨다.
    IQR = Q_{3} - Q_{1}

    편차 값 /outlier


    다른 데이터와 차이가 매우 큰 값을 가리킨다.
    데이터에서 가장 작은 값과 가장 큰 값을 각각 최소값과 최대값이라고 하는데 편차 값은 이 범위 밖에서 비정상적인 값이다.
    편차 값에서 그 원인을 아는 것을 이상값이라고 한다.
    \begin{aligned}
    \text{최대 임계값} = Q{3} + 1.5 * IQR\\
    \text{최소 임계값} = Q{1} - 1.5 * IQR
    \end{aligned}

    > median(iris$Petal.Width)
    [1] 1.3
    

    데이터 편차 상황


    편차 / deviation


    데이터가 평균치에서 얼마나 먼지를 나타낸다.데이터와 평균치의 차이.
    전체 평균치와의 차이도 나타낼 수 있다.
    \text{편차]=x{i}-\bar{x}
    기호
    의향
    x_{i}
    데이터 값
    \bar{x}
    데이터 평균
    > summary(iris$Sepal.Width)
       Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
      2.000   2.800   3.000   3.057   3.300   4.400 
    

    편차 제곱 및 /sum of squared deviations


    각 편차에 2를 곱한 값.
    데이터의 개수가 많을수록 값도 커진다(분산 제거)
    \begin{aligned}
    s &=\sum_{i=1}^{n}\left(x_{i}-\bar{x}\right)^{2}\\
    &=\left(x_{1}-\bar{x}\right)^{2}+\left(x_{2}-\bar{x}\right)^{2}+\cdots+\left(x_{n}-\bar{x}\right)^{2}
    \end{aligned}
    > x <- iris$Sepal.Width
    > x - mean(x)
      [1]  0.44266667 -0.05733333  0.14266667  0.04266667  0.54266667  0.84266667
      [7]  0.34266667  0.34266667 -0.15733333  0.04266667  0.64266667  0.34266667
      ...
    

    흩어지다


    통계 데이터에 파동 상황을 나타내다.편차 제곱과 데이터 총수를 나누다.
    최소값은 0으로 숫자가 클수록 편차가 크다는 뜻이다.
    전체 견본에 비해 표본 분산은 견본의 수량이 비교적 적은 상황에서 모분산보다 작다.그걸 수정한 건 편차가 없는 분산이야.

    표본이 분산되다


    표본의 방차.
    s^{2}=\frac{1}{n}\sum_{i=1}^{n}\left(x_{i}-\bar{x}\right)^{2}

    어느 한쪽으로 치우치지 않다


    총체적 분산\sigma^{2}의 추산값을 나타낸다.
    U^{2}=\frac{1}{n-1}\sum_{i=1}^{n}\left(x_{i}-\bar{x}\right)^{2}
    > x <- iris$Sepal.Width
    > sum((x - mean(x))^2)
    [1] 28.30693
    
    var 함수는 비편차 색산을 사용하기 때문에 모분산을 구할 때* (n - 1) / n를 교정합니다.

    표준 편차


    방차와 표준 편차 단위가 다르기 때문에 둘 다 편차 상황을 나타내는 통계량이다.
    편차 제곱의 제곱을 기초로 하다.
    s=\sqrt{\frac{1}{n-1}\sum_{i=1}^{n}\left(x_{i}-\bar{x}\right)^{2}}
    전체 표준 편차는\sigma로 표시됩니다.
    \sigma=\sqrt{\text { population variance }}
    > x <- iris$Sepal.Width
    > sum((x - mean(x))^2) / (length(x) - 1)
    [1] 0.1899794
    
    # または、
    > var(x)
    [1] 0.1899794
    

    표준화/standardization


    데이터의 항목과 단위가 다른 경우 규격을 통일해야 하기 때문에 데이터를 평균 0으로 전환하고 1로 분산해야 한다.변환된 데이터를 Z득점이라고 한다.
    정규화, 기준화라고도 불린다.
    Z=\frac{x-\mu}{\sigma}
    > x <- iris$Sepal.Width
    > sqrt(sum((x - mean(x))^2) / (length(x) - 1))
    [1] 0.4358663
    
    # または、
    > sd(x)
    [1] 0.4358663
    
    scale 함수는 편차 색산을 사용하지 않도록 주의하십시오

    참고 문헌

  • Introduction to statistical thinking (with r, without calculus)
  • 데이터 분석 선생님!문과에 제가 알기 쉬운 통계학을 알려주세요!
  • 동경대학 데이터과학 육성 강좌
  • R로 도수 분포표 만들기 - R 프로그래밍 소품
  • 좋은 웹페이지 즐겨찾기