R 언어의 표본 추출 방법과 통계 함수 설명

표본 추출 방법


흔한 표본 추출 방법
  • 단순 무작위 표본 추출
  • 층별 표본 추출
  • 시스템 표본 추출
  • #  
    # 1    2     3  
    data 

    전공
    ID
    수입.
    375
    1
    A001
    6811
    360
    1
    A002
    3976
    505
    1
    A003
    2692
    470
    1
    A004
    8156
    214
    1
    A005
    2169
    450
    1
    A006
    6142

    단순 무작위 표본 추출


    단순 무작위 표본 추출의 가장 기본적인 표본 추출 방법.중복 추출과 중복 추출이 없는 추출로 나뉜다.사회 조사는 중복 표본 추출을 채택하지 않는다.
    sample(x,size,replace=FALSE,prob=NULL)
  • x: 표본 추출 총체
  • size: 샘플 용량
  • replace: 돌려보냈는지 여부
  • prob: 표본 추출 확률, 기본 등 확률
  • sample 함수를 사용하여 데이터를 승차순으로 정렬하기
    #  
    #  10 
    index_11 
  • 202
  • 181
  • 392
  • 222
  • 22
  • 117
  • 190
  • 247
  • 135
  • 169

  • 전공
    ID
    수입.
    65
    2
    B102
    8522
    369
    2
    B081
    8386
    309
    3
    C092
    6151
    169
    2
    B122
    6439
    392
    1
    A022
    4371
    41
    2
    B017
    4203
    428
    2
    B090
    5392
    44
    2
    B147
    3291
    402
    2
    B035
    7097
    523
    2
    B069
    8141
    #  6000 5 
    index_12 
  • C118
  • A006
  • B117
  • B104
  • C087
  • #  
    sample(c("a","b","c"),size = 10,replace = TRUE,
           prob = c(0.1,0.5,0.4))
    
  • 'c'
  • 'c'
  • 'b'
  • 'c'
  • 'b'
  • 'b'
  • 'b'
  • 'a'
  • 'c'
  • 'b'

  • 층별로 표본을 추출하다.


    층별 표본 추출: 먼저 한 가지 또는 몇 가지 특징에 따라 전체를 몇 개의 자총체로 나누고 각 자총체를 하나의 층이라고 한다.그리고 각 층에서 무작위로 몇 개의 서브샘플을 추출하는데 이런 서브샘플을 합치면 전체적인 샘플이다
    strata(data, stratanames=NULL, size, method=c(“srswor”,“srswr”,“poisson”,“systematic”), pik,description=FALSE)
  • stratanames: 층 필드
  • size: 층별 견본 크기
  • method:
  • srswor: 무작위 표본 추출
  • 을 돌려주지 않음
  • srswr: 무작위 표본 추출
  • poisson: 파송 표본 추출
  • 시스템atic: 시스템 표본 추출
  • pik: 각 데이터가 견본에 포함된 확률은 부등확률 표본 추출에만 사용
  • description: TRUE 시 샘플 개수와 전체 개수를 표시합니다
  • #  sampling
    library(sampling)
    
    #  , 1 ,2 ,3 , , 
    index_21 
    Stratum 1 
    
    Population total and number of selected units: 100 1 
    Stratum 2 
    
    Population total and number of selected units: 200 2 
    Stratum 3 
    
    Population total and number of selected units: 300 3 
    Number of strata  3 
    Total number of selected units 6 
    

    전공
    ID_unit
    Prob
    Stratum
    62
    1
    62
    0.01
    1
    241
    2
    241
    0.01
    2
    280
    2
    280
    0.01
    2
    359
    3
    359
    0.01
    3
    393
    3
    393
    0.01
    3
    399
    3
    399
    0.01
    3

    시스템 샘플링


    등거리 표본 추출이라고도 부른다.순수 무작위 표본 추출의 변종이다.시스템 표본 추출에서 먼저 전체를 1~N에서 잇따라 번호를 매기고 표본 추출 거리 K=N/n을 계산한다.식에서 N은 전체 단위 총수이고 n은 견본 용량이다.그리고 1~K에서 무작위 수 k1을 뽑아 견본의 첫 번째 단위로 하고 이어서 k1+K, k1+2K를 뽑아 n개 단위가 될 때까지 뽑는다.시스템 표본 추출은 주기적인 편차를 방지해야 한다. 왜냐하면 그것은 표본의 대표성을 떨어뜨리기 때문이다.예를 들어 군인 명단은 보통 반별로 10인 1반, 반장이 1등을 하고 표본 추출 거리도 10시를 취하면 표본은 모두 병사로 구성되거나 모두 반장으로 구성된다.
    data2=rbind(matrix(rep("nc",165),165,1,byrow=TRUE),
    matrix(rep("sc",70),70,1,byrow=TRUE))
    data2=cbind.data.frame(data2,c(rep(1,100), rep(2,50), rep(3,15), rep(1,30),rep(2,40)),
    1000*runif(235))
    names(data2)=c("state","region","income")
    
    #  “income” 
    pik=inclusionprobabilities(data2$income,10)
    #  ( 10)
    s=UPsystematic(pik) 
    #  
    getdata(data2,s)
    

    ID_unit
    state
    region
    income
    14
    14
    nc
    1
    172.0453
    38
    38
    nc
    1
    341.7052
    59
    59
    nc
    1
    616.9244
    87
    87
    nc
    1
    331.2421
    107
    107
    nc
    2
    150.9538
    127
    127
    nc
    2
    993.4834
    152
    152
    nc
    3
    992.7680
    179
    179
    sc
    1
    854.8830
    201
    201
    sc
    2
    638.2734
    222
    222
    sc
    2
    919.4055

    설명 통계


    때때로 우리는 데이터의 통계적 특징을 신속하게 훑어보고 싶을 뿐이다. 만약에 하나의 입력 함수 계산이 매우 번거롭다면 R에서 우리에게 많은 함수를 제공하여 여러 개의 통계량을 한꺼번에 보여줄 수 있다.

    summary 함수

    summary()는 시스템이 자체로 가지고 있는 함수로 최소 최대치, 중위수, 중치, 4분위수와 분류 데이터의 주파수 통계를 포함한다.
    vars 
          mpg              hp              wt       
     Min.   :10.40   Min.   : 52.0   Min.   :1.513  
     1st Qu.:15.43   1st Qu.: 96.5   1st Qu.:2.581  
     Median :19.20   Median :123.0   Median :3.325  
     Mean   :20.09   Mean   :146.7   Mean   :3.217  
     3rd Qu.:22.80   3rd Qu.:180.0   3rd Qu.:3.610  
     Max.   :33.90   Max.   :335.0   Max.   :5.424  
    

    Hmisc 패키지의 describe 함수


    이 함수는 변수와 관측의 수량, 부족한 값의 수량, 유일한 값의 수량, 평균값, 각 분위값, 다섯 개의 최대 최소값을 제공한다.
    library(Hmisc)
    describe(mtcars[vars])
    
    mtcars[vars] 
    
     3  Variables      32  Observations
    --------------------------------------------------------------------------------
    mpg 
           n  missing distinct     Info     Mean      Gmd      .05      .10 
          32        0       25    0.999    20.09    6.796    12.00    14.34 
         .25      .50      .75      .90      .95 
       15.43    19.20    22.80    30.09    31.30 
    
    lowest : 10.4 13.3 14.3 14.7 15.0, highest: 26.0 27.3 30.4 32.4 33.9
    --------------------------------------------------------------------------------
    hp 
           n  missing distinct     Info     Mean      Gmd      .05      .10 
          32        0       22    0.997    146.7    77.04    63.65    66.00 
         .25      .50      .75      .90      .95 
       96.50   123.00   180.00   243.50   253.55 
    
    lowest :  52  62  65  66  91, highest: 215 230 245 264 335
    --------------------------------------------------------------------------------
    wt 
           n  missing distinct     Info     Mean      Gmd      .05      .10 
          32        0       29    0.999    3.217    1.089    1.736    1.956 
         .25      .50      .75      .90      .95 
       2.581    3.325    3.610    4.048    5.293 
    
    lowest : 1.513 1.615 1.835 1.935 2.140, highest: 3.845 4.070 5.250 5.345 5.424
    --------------------------------------------------------------------------------
    

    pastecs 패키지의stat.desc 함수


    이 함수는 종류가 많은 묘사적 통계량을 계산할 수 있다.stat.desc(x,basic=TRUE,desc=TRUE,norm=FALSE,p=0.95)
  • basic: 그 중의 모든 값, 제어, 부족한 값의 수량, 그리고 최소 최대값, 값역과 총계를 계산한다.
  • desc: 중위수, 평균치, 평균치 기준 오류, 평균치 신뢰도 95%의 신뢰 구간, 방차, 표준차 및 변이 계수
  • 계산
  • norm: 정적 분포 통계량(편도, 피크, 통계적 현저도)과 shapiro-Wilk 정적 검사 결과
  • 를 되돌려줍니다
  • p: 신뢰 구간
  • library(pastecs)
    stat.desc(mtcars[vars],norm = TRUE)
    

    mpg
    hp
    wt
    nbr.val
    32.0000000
    32.00000000
    32.00000000
    nbr.null
    0.0000000
    0.00000000
    0.00000000
    nbr.na
    0.0000000
    0.00000000
    0.00000000
    min
    10.4000000
    52.00000000
    1.51300000
    max
    33.9000000
    335.00000000
    5.42400000
    range
    23.5000000
    283.00000000
    3.91100000
    sum
    642.9000000
    4694.00000000
    102.95200000
    median
    19.2000000
    123.00000000
    3.32500000
    mean
    20.0906250
    146.68750000
    3.21725000
    SE.mean
    1.0654240
    12.12031731
    0.17296847
    CI.mean.0.95
    2.1729465
    24.71955013
    0.35277153
    var
    36.3241028
    4700.86693548
    0.95737897
    std.dev
    6.0269481
    68.56286849
    0.97845744
    coef.var
    0.2999881
    0.46740771
    0.30412851
    skewness
    0.6106550
    0.72602366
    0.42314646
    skew.2SE
    0.7366922
    0.87587259
    0.51048252
    kurtosis
    -0.3727660
    -0.13555112
    -0.02271075
    kurt.2SE
    -0.2302812
    -0.08373853
    -0.01402987
    normtest.W
    0.9475647
    0.93341934
    0.94325772
    normtest.p
    0.1228814
    0.04880824
    0.09265499
    한 마디로 하면 R의 묘사적 통계 함수는 매우 많은데 이것은 그 중 몇 개일 뿐이다.흥미 있는 것은 발굴할 수 있고, 자신의 습관을 찾아서 하나만 쓰면 된다
    저의 공식 계정 데이터에 261번이 있는 것을 환영합니다. 제 글은 공식 계정에 동시 발표되고 자원 공유가 있는지 확인하겠습니다.

    좋은 웹페이지 즐겨찾기