소수 샘플의 바이어스로 회귀 계수는 바뀌는가?

3938 단어 R인과추론
인터넷 조사와 리얼에서 10 차이가 있다는 가정에서 선형 회귀해 보았다.

bias=c()

for(i in 1:500){
  Nreal=i
  Nnet=1000-i
  d1=rnorm(Nreal,mean=190)
  d2=rnorm(Nnet,mean=200)


  df=data_frame(h=c(d1,d2),bias=c(rep(0,Nreal),rep(1,Nnet)))


  res=lm(h~.,df) %>% summary()
  bias=c(bias,as.data.frame(res$coefficients)[2,1])
}

ts.plot(bias)
summary(lm(bias~seq(1,length(bias))))



Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 9.986e+00 1.015e-02 983.782 <2e-16 ***

seq(1, length(bias)) 4.130e-05 3.511e-05 1.176 0.24



라고 하는 것으로, 그다지 문제는 없다고 생각한다. n=30까지도 마찬가지.
단지, 이 케이스라면 n=30 정도 지금은 바리언스가 큰 케이스가 얼른 나온다.

좋은 웹페이지 즐겨찾기