R 언어의 표본 추출 방법과 통계 함수 설명
8402 단어 데이터 분석R 언어 학습 노트
표본 추출 방법
흔한 표본 추출 방법
#
# 1 2 3
data
전공
ID
수입.
375
1
A001
6811
360
1
A002
3976
505
1
A003
2692
470
1
A004
8156
214
1
A005
2169
450
1
A006
6142
단순 무작위 표본 추출
단순 무작위 표본 추출의 가장 기본적인 표본 추출 방법.중복 추출과 중복 추출이 없는 추출로 나뉜다.사회 조사는 중복 표본 추출을 채택하지 않는다.
sample(x,size,replace=FALSE,prob=NULL)
#
# 10
index_11
전공
ID
수입.
65
2
B102
8522
369
2
B081
8386
309
3
C092
6151
169
2
B122
6439
392
1
A022
4371
41
2
B017
4203
428
2
B090
5392
44
2
B147
3291
402
2
B035
7097
523
2
B069
8141
# 6000 5
index_12
#
sample(c("a","b","c"),size = 10,replace = TRUE,
prob = c(0.1,0.5,0.4))
층별로 표본을 추출하다.
층별 표본 추출: 먼저 한 가지 또는 몇 가지 특징에 따라 전체를 몇 개의 자총체로 나누고 각 자총체를 하나의 층이라고 한다.그리고 각 층에서 무작위로 몇 개의 서브샘플을 추출하는데 이런 서브샘플을 합치면 전체적인 샘플이다
strata(data, stratanames=NULL, size, method=c(“srswor”,“srswr”,“poisson”,“systematic”), pik,description=FALSE)
# sampling
library(sampling)
# , 1 ,2 ,3 , ,
index_21
Stratum 1
Population total and number of selected units: 100 1
Stratum 2
Population total and number of selected units: 200 2
Stratum 3
Population total and number of selected units: 300 3
Number of strata 3
Total number of selected units 6
전공
ID_unit
Prob
Stratum
62
1
62
0.01
1
241
2
241
0.01
2
280
2
280
0.01
2
359
3
359
0.01
3
393
3
393
0.01
3
399
3
399
0.01
3
시스템 샘플링
등거리 표본 추출이라고도 부른다.순수 무작위 표본 추출의 변종이다.시스템 표본 추출에서 먼저 전체를 1~N에서 잇따라 번호를 매기고 표본 추출 거리 K=N/n을 계산한다.식에서 N은 전체 단위 총수이고 n은 견본 용량이다.그리고 1~K에서 무작위 수 k1을 뽑아 견본의 첫 번째 단위로 하고 이어서 k1+K, k1+2K를 뽑아 n개 단위가 될 때까지 뽑는다.시스템 표본 추출은 주기적인 편차를 방지해야 한다. 왜냐하면 그것은 표본의 대표성을 떨어뜨리기 때문이다.예를 들어 군인 명단은 보통 반별로 10인 1반, 반장이 1등을 하고 표본 추출 거리도 10시를 취하면 표본은 모두 병사로 구성되거나 모두 반장으로 구성된다.
data2=rbind(matrix(rep("nc",165),165,1,byrow=TRUE),
matrix(rep("sc",70),70,1,byrow=TRUE))
data2=cbind.data.frame(data2,c(rep(1,100), rep(2,50), rep(3,15), rep(1,30),rep(2,40)),
1000*runif(235))
names(data2)=c("state","region","income")
# “income”
pik=inclusionprobabilities(data2$income,10)
# ( 10)
s=UPsystematic(pik)
#
getdata(data2,s)
ID_unit
state
region
income
14
14
nc
1
172.0453
38
38
nc
1
341.7052
59
59
nc
1
616.9244
87
87
nc
1
331.2421
107
107
nc
2
150.9538
127
127
nc
2
993.4834
152
152
nc
3
992.7680
179
179
sc
1
854.8830
201
201
sc
2
638.2734
222
222
sc
2
919.4055
설명 통계
때때로 우리는 데이터의 통계적 특징을 신속하게 훑어보고 싶을 뿐이다. 만약에 하나의 입력 함수 계산이 매우 번거롭다면 R에서 우리에게 많은 함수를 제공하여 여러 개의 통계량을 한꺼번에 보여줄 수 있다.
summary 함수
summary()
는 시스템이 자체로 가지고 있는 함수로 최소 최대치, 중위수, 중치, 4분위수와 분류 데이터의 주파수 통계를 포함한다.vars
mpg hp wt
Min. :10.40 Min. : 52.0 Min. :1.513
1st Qu.:15.43 1st Qu.: 96.5 1st Qu.:2.581
Median :19.20 Median :123.0 Median :3.325
Mean :20.09 Mean :146.7 Mean :3.217
3rd Qu.:22.80 3rd Qu.:180.0 3rd Qu.:3.610
Max. :33.90 Max. :335.0 Max. :5.424
Hmisc 패키지의 describe 함수
이 함수는 변수와 관측의 수량, 부족한 값의 수량, 유일한 값의 수량, 평균값, 각 분위값, 다섯 개의 최대 최소값을 제공한다.
library(Hmisc)
describe(mtcars[vars])
mtcars[vars]
3 Variables 32 Observations
--------------------------------------------------------------------------------
mpg
n missing distinct Info Mean Gmd .05 .10
32 0 25 0.999 20.09 6.796 12.00 14.34
.25 .50 .75 .90 .95
15.43 19.20 22.80 30.09 31.30
lowest : 10.4 13.3 14.3 14.7 15.0, highest: 26.0 27.3 30.4 32.4 33.9
--------------------------------------------------------------------------------
hp
n missing distinct Info Mean Gmd .05 .10
32 0 22 0.997 146.7 77.04 63.65 66.00
.25 .50 .75 .90 .95
96.50 123.00 180.00 243.50 253.55
lowest : 52 62 65 66 91, highest: 215 230 245 264 335
--------------------------------------------------------------------------------
wt
n missing distinct Info Mean Gmd .05 .10
32 0 29 0.999 3.217 1.089 1.736 1.956
.25 .50 .75 .90 .95
2.581 3.325 3.610 4.048 5.293
lowest : 1.513 1.615 1.835 1.935 2.140, highest: 3.845 4.070 5.250 5.345 5.424
--------------------------------------------------------------------------------
pastecs 패키지의stat.desc 함수
이 함수는 종류가 많은 묘사적 통계량을 계산할 수 있다.stat.desc(x,basic=TRUE,desc=TRUE,norm=FALSE,p=0.95)
library(pastecs)
stat.desc(mtcars[vars],norm = TRUE)
mpg
hp
wt
nbr.val
32.0000000
32.00000000
32.00000000
nbr.null
0.0000000
0.00000000
0.00000000
nbr.na
0.0000000
0.00000000
0.00000000
min
10.4000000
52.00000000
1.51300000
max
33.9000000
335.00000000
5.42400000
range
23.5000000
283.00000000
3.91100000
sum
642.9000000
4694.00000000
102.95200000
median
19.2000000
123.00000000
3.32500000
mean
20.0906250
146.68750000
3.21725000
SE.mean
1.0654240
12.12031731
0.17296847
CI.mean.0.95
2.1729465
24.71955013
0.35277153
var
36.3241028
4700.86693548
0.95737897
std.dev
6.0269481
68.56286849
0.97845744
coef.var
0.2999881
0.46740771
0.30412851
skewness
0.6106550
0.72602366
0.42314646
skew.2SE
0.7366922
0.87587259
0.51048252
kurtosis
-0.3727660
-0.13555112
-0.02271075
kurt.2SE
-0.2302812
-0.08373853
-0.01402987
normtest.W
0.9475647
0.93341934
0.94325772
normtest.p
0.1228814
0.04880824
0.09265499
한 마디로 하면 R의 묘사적 통계 함수는 매우 많은데 이것은 그 중 몇 개일 뿐이다.흥미 있는 것은 발굴할 수 있고, 자신의 습관을 찾아서 하나만 쓰면 된다
저의 공식 계정 데이터에 261번이 있는 것을 환영합니다. 제 글은 공식 계정에 동시 발표되고 자원 공유가 있는지 확인하겠습니다.
이 내용에 흥미가 있습니까?
현재 기사가 여러분의 문제를 해결하지 못하는 경우 AI 엔진은 머신러닝 분석(스마트 모델이 방금 만들어져 부정확한 경우가 있을 수 있음)을 통해 가장 유사한 기사를 추천합니다:
형태소 분석은 데스크톱을 구성하는 데 도움이?문자×기계 학습에 흥미를 가져와 개인 범위의 용도를 생각해, 폴더 정리에 사용할 수 있을까 생각해 검토를 시작했습니다. 이번 검토에서는 폴더 구성 & text의 읽기 → mecab × wordcloud를 실시하고 있...
텍스트를 자유롭게 공유하거나 복사할 수 있습니다.하지만 이 문서의 URL은 참조 URL로 남겨 두십시오.
CC BY-SA 2.5, CC BY-SA 3.0 및 CC BY-SA 4.0에 따라 라이센스가 부여됩니다.