통계적 가설 검정 2: 유의 수준과 p-값은 결국 무엇인가?

전회는 통계적 가설 검정이란 무엇인가에 대해 공부했습니다.

$\qquad$$\qquad$ 링크: 통계 가설 검정 1 : 검정이란 무엇입니까?

이번은 p값과는 결국 무엇인가라는 것에 대해 공부했으므로 잊지 말고 써 갑니다.

유의 수준



귀무가설이 옳은데도 이것을 기각해 버리는 것을 제1종의 과오라고 하며,

귀무가설이 잘못되었음에도 불구하고 이를 채택해 버리는 것을 제2종의 과오라고 하는 것이었습니다.

       

그리고 좋은 검정이란 이 두 가지 과오를 범할 확률이 모두 작은 검정을 말하는 것이었습니다.

그러나 주어진 표본 하에서 이 두 확률을 낮추는 검정은 일반적으로 하지 않는다[1].

거기서 제1종의 과오의 확률이 $α$ 이하가 되는 검정 중, 제2종의 과오의 확률이 최소가 되는 검정을 선택하는 방법을 생각합니다.

즉, 표본 $X$ , 검정 통계량 $T(X)$ , 기각역을 $C$ 로 했을 때, 어느 $α(0≤α≤1)$ 를 미리 결정해 두고,

$\qquad P_\theta\bigl\{T(X)\in C\,|\,\theta\in\Theta_0\bigr\}\,≤α$ (제1종의 과오 확률이 $α$ 이하 )

아래,

$\qquad P_\theta\bigl\{T(X)\in C^c\,|\,\theta\in\Theta_1\bigr\}$   ( 제2종의 과오 확률)

을 최소화하는 방법을 생각해보십시오. 이 미리 결정한 $α$ 를 유의 수준이라고 합니다.

요점은 제1종의 과오에 대해 허용할 수 있는 최대의 확률입니다.

p-값



주어진 데이터에 대해 귀무 가설을 기각할 수 있는 최소 유의 수준을 $p$ 값이라고 합니다.

정의 자체는 매우 간단합니다.

■예1



예를 들어, 단측 검정을 고려한다고 가정합니다.

귀무 가설을 $H_0$ 로, 검정 통계량을 $T(X)$ 로 하고, $t$ 를 실제의 관측치로부터 구한 $T$ 의 값으로 하면 $p$ 치는 다음과 같이 구해집니다 .

$\qquad$ $p$ 값 $=P_\theta\bigl\{T(X)\geq t ,|\, H_0\bigr\}$

즉, $ p $ 값은 "귀무 가설 $ H_0 $ 아래 (이것이 상당히 중요)이며, 검정 통계량 (확률 변수) $ T $가 실제 관측치에서 계산 된 검정 통계량의 값 (실현 값) $t$ 보다 커질 확률입니다.

■예 2



예를 들어,
t.test(a, b, var.equal=TRUE)

        Two Sample t-test

data:  a and b
t = 1.8429, df = 18, p-value = 0.08187
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
 -1.410388 21.559806
sample estimates:
mean of x mean of y 
 52.35852  42.28381 

이런 느낌의 결과를 얻을 수 있다고 합니다.

$\qquad$p-value = 0.08187

라고 쓰고 있네요. 이것은 $p$ 값입니다. 이것은 유의 수준이 $α = 0.08187$ 보다 큰 검정에서는 귀무 가설이 기각되고, 유의 수준이 $α = 0.08187$ 보다 작은 검정에서는 귀무 가설이 채택된다는 것이 됩니다.

주의



유의 수준이나 $p$ 값의 취급으로 주의해야 하는 것은 유의 수준은 데이터를 보기 전에 결정해 두어야 한다는 점입니다.

먼저 검정을 실시해(검정은 먼저 채택과 기각에 관한 룰을 결정해 두는 순서를 포함하므로, 이것은 검정이라고는 부르지 않습니다만 여기에서는 그 밖에 부르는 방법이 생각하지 않기 때문에 검정이라고 부르고 있습니다 .), $p$ 값이 $0.012$ 이었기 때문에 유의 수준 $α=0.05$로 채택이다! 라는 것은 인치키라는 것입니다.

여러분 인치키를 하지 않도록 주의합시다.

★참고★



[1]노다, 미야오카 : 수리 통계학의 기초(1992)
[2]마나세, 진보, 가마쿠라, 김도 : 공학을 위한 데이터 과학 입문(2004)

좋은 웹페이지 즐겨찾기