survey weight의 역할

5585 단어 표본조사통계학

개시하다


지바대 노스페어유한공사천구보. 표본조사 분야에 사용된survey weight에 대한 설명이다. survey weight를 사용하면 편차 샘플에 대한 편압 해소 추정이 가능하다. 또한 표본조사 뿐만 아니라 인과추론과 공변량 이전 분야에서도같은 생각을 하는 수법을 제시했기 때문에 이런 것들도 간단하게 얘기하고 싶다.

포함 확률


크기가 $N$N인 제한된 전체 변수 값 $y1,\dots,y_N$i$i$i$I$에 대한 전체 견본은 $U=\{1,\dots, N\} 달러입니다. 견본 크기 $n의 견본을 추출합니다. 이때 제 $i$i 요소가 표본에 포함될 확률 $\pi예를 들어 단순 무작위 추출(simple random sampling without replace ement)을 복원하지 않은 경우 모든 $i
\pi_i = { {}_{N-1}C_{n-1} \over {}_N C_n } = {n \over N}, \tag{1}
하지만
{}_N C_n = {N! \over n! (N-n)!}
에서 $N$중에서 $n개의 조합을 선택한 수를 나타냅니다. (1)식은 전체 $\{1,\dots, N\}에서 $n개의 조합 총수를 분모로 하고 $i$요소를 표본으로 조합한 데이터를 분자로 하며 분자의 ${}{N-1} C_{n-1}달러는 $i 원소 이외의 $N-1달러에서 $n-1달러의 조합을 선택합니다.
한편, $i$$$$\pii$i 값이 다른 표본 디자인도 고려할 수 있는데 현실에서는 이러한 표본 조사가 비교적 많다. 예를 들어 전체적으로 알려진 보조 변수 값과 비례하는 포함 확률을 이용하여 표본을 추출하는 확률 비례 추출법(probability prooptional-to-size sampling)을 사용하거나 전체를 몇 층으로 나누어레이어에는 단순 무작위 추출과 확률 비례 추출을 복원하지 않은 레이어 추출법(레벨 크기) 등이 있습니다. 레이어 추출의 예를 보십시오. 전체적으로 $H$$$h개 레이어로, $h달러 레이어에 포함된 요소의 수(레벨 크기)를 $N$개 레이어로 구분합니다.여기서부터 샘플 사이즈 $nh$h 비복원 단순 무작위 추출 시 $h달러 층에 포함된 요소의 포함 확률은 다음과 같습니다.
\pi_i = { {}_{N_h - 1} C_{n_h - 1} \over {}_{N_h} C_{n_h} } = {n_h \over N_h}
각 층에 포함될 확률이 다릅니다.
복원 추출법에서 같은 원소가 두 번 이상 추출될 확률이 0이 아니기 때문에 생각이 다릅니다. 샘플 크기 $$$$$$$n의 복원 추출은 크기가 1인 추출이 $n달러가 중복된다고 생각하기 때문에 모그룹의 $i$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$i$i 요소의 포함 확률은 $n달러의 샘플을 중복 추출하여 한 번도 샘플로 선택되지 않은 이벤트의 잉여 현상의 확률이기 때문에
$$
\pi_i = 1 - (1 - p_i)^n
$$
네.

survey weight를 사용한 추측


survey weight의 정의


나중에 화제를 비복원 추출로 한정합니다. $i$요소는 $\pi를 포함합니다.i달러일 때,
$$
w_i = {1\over\pi_i}
$$
정의첫 번째 요소는 survey weight 또는 sampling weight, 디자인 weighti$는 표본 추출이 전체적인 몇 가지 요소를 대표한다는 것을 나타낸다. 예를 들어 층별 추출법에서 인종으로 한 층을 나눈다. 소수 인종의 계층은 조사를 하지 않기 위해 포함 확률이 $\pi이다.i = n_h/N_h$h를 확대하면 반대로 다수 인종의 계층은 포함 확률이 적을 수 있습니다. 이때 소수 인종의 표본인survey weight는 상대적으로 작고, 다수 인종의 표본인survey weight는 커지고,다수 인종의 표본이 대표하는 총체적 요소가 많다는 것을 의미한다.

Horvitz – Thompson 푸시 측정


여기는 크기 $N$N의 제한된 전체 변수 $y 입니다1,\dots,y_합계
$$
\tau_y =\sum_{i=1}^N y_i
$$
표본에서 추정되는 문제를 고려합니다. 견본의 크기는 $n이고, 견본에 포함된 추가 글자 $i의 집합은 $\mathcal{S}달러입니다. 즉 $# (\mathcal{S}) =n달러입니다. 여기는survey weight를 사용합니다.짐작컨대,
\hat{\tau}_y = \sum_{i \in \mathcal{S}} w_iy_i \tag{2}
Horvitz – Thompson(HT) 푸시 측정대표적인 전체 요소 수 $wi$를 추가해서 추가하고 있습니다.
(2)식의 푸시 측정은 $\tau이전 기사에서 설명한 바와 같이 $i$요소가 표본으로 선택되면 1을 획득하고 선택하지 않으면 0의 확률 변수 $Z를 획득합니다i\(i=1,\dots, N) 가져오기$. 이 확률 변수는 $P(Z i=1)=\pi입니다.i$E[Z i]=\pii에는 확률이 포함되어 있기 때문입니다.i$Z 설립(2)식의 HT 추정량은
\hat{\tau}_y = \sum_{i=1}^N Z_i w_i y_i, \tag{3}
여기 확률 변수는 $Z입니다.그저i$i는 상수 (비확률 변수) 입니다. 즉 HT 추정량의 편차가 지표본의 오차인 randoomness가 편파적이지 않다는 것입니다. 이런 편파적이지 않은 것을 디자인 unbiasedness라고 합니다. HT 추정량의 편파적이지 않은 것은 (3)식이 $Z$라는 것을 말합니다.i$i의 분포로 기대치를 얻으면 확인할 수 있습니다.
\begin{align}
E[\hat{\tau}_y] &= \sum_{i=1}^N E[Z_i]w_iy_i \\
&= \sum_{i=1}^N \pi_i {1 \over \pi_i} y_i \quad (\because w_i = \pi_i^{-1}) \\
&= \tau_y
\end{align}

총체적 평균 평가


이어서 전체 평균치.
\mu_y = {1 \over N}\sum_{i=1}^N y_i
추측하다
\hat{\mu}_y = {1 \over N}\hat{\tau}_y = {1 \over N}\sum_{i \in \mathcal{S}} w_iy_i, \tag{4}
이런 추측
\tilde{\mu}_y = {\sum_{i \in \mathcal{S}} w_iy_i \over \sum_{j \in \mathcal{S}} w_j} = \sum_{i \in \mathcal{S}} \tilde{w}_i y_i, \tag{5}
하지만
\tilde{w}_i = {w_i \over \sum_{j \in \mathcal{S}} w_j}
예, ${i\in\mathcal{S}}\tilde{w}_i=1달러가 성립되었기 때문에 표준화된 weight로 볼 수 있다.survey weight는 표본이 대표하는 총체적 요소의 수를 표시하기 때문에 (5)식 분모의 $\sum{j\in\mathcal{S}} w_j$는 전체 크기 $N$의 추정량으로 해석됩니다. (4)식 분모의 $N$N$N$N$N$N$N$N$N$N$N$5식입니다. 표본 추출에 편차가 존재하기 때문에 간단한 표본 평균 $n^{-1}\sum{i\in\mathcal{S}} y_i$가 아니라 weight를 사용하여 가중평균을 얻어야 합니다.

다른 분야와의 관계


우리는 샘플에 편차(편압)가 있는 상황에서 weight를 사용하여 추측하는 방법을 보았다. 이전에 샘플 조사에서 유한모그룹 특성치의 추정 문제에 있어서표본조사의 디자인에 따르면survey weight는 이미 알려진 상황에서 하는 말이다. 편압된 샘플에 대해 weight를 사용하여 추측하는 생각은 표본조사의 영역에 국한되지 않는다.

인과추론


인과추론의 영역에서는 어떤 처리를 실시한 상황과 실시하지 않은 상황의 차이, 즉 처리 효과를 추측하려는 문제가 존재한다. 그러나 처리 분배가 랜덤하지 않은 상황에서 단순히 처리군과 대상군의 표본 평균을 계산하더라도예컨대 교육 프로그램의 효과를 평가할 때 프로그램 참여가 무작위 배분이 아닌 희망제라면 워낙 교육 의욕이 높은 사람이 참여(처리군 가입)할 가능성이 높아 효과를 과대평가할 우려가 있다.각종 보조 변수를 사용하여 처리군에 들어갈 확률을 추정해 본다. 이 확률은 성향 득점(processity score)이라고 불리며 추정된 성향 점수를 사용하여 다양한 처리 효과를 추정하는 방법을 제시했다. 성향 점수는 표본조사에 포함된 확률과 같은 작용을 하는 것으로 여겨진다.득점 성향의 꼴찌를 웨이트로 활용하는 추정 기법도 제시했다.

공통 변수 오프셋


회귀 모델은 $f(y\mid x)$에서 $f$의 견본을 추정하는 x달러(트레이닝 데이터)의 분포와 추정하는 $f달러에서 새로운 $y달러로 예측하는 새로운 $x의 분포는 서로 다른 상황으로 여겨지는데 이것은 공변수 편이라고 부른다.훈련 데이터는 모체의 편차 샘플로 볼 수 있습니다. 따라서 $x$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$$

끝말


주식회사 노스페어는 통계학 각 분야에 전문적으로 종사하는 연구원으로 통계 고문과 상업 데이터에 대한 분석은 문의주식회사하십시오.


좋은 웹페이지 즐겨찾기