상관계수가 의외로 어렵다

두 확률 변수 $X, Y$간의 상관성을 조사하려면 상관수 $\rho$n 샘플 $(X 1, Y 1),\cdots, (X n, Y n)$를 상관수 추정 중 하나로
$$
\hat{\rho} =\dfrac{\sum_i (X_i -\bar{X}) (Y_i -\bar{Y}) }{\sqrt{\sum_i (X_i -\bar{X})^2\sum_i (Y_i -\bar{Y})^2 }}
$$
(Pearson의 누적률 관련수)
\bar{X} = \dfrac{1}{n} \sum_i X_i, \quad \bar{Y} = \dfrac{1}{n} \sum_i Y_i
정의했어.
상관계수의 추정치 $\hat{rho}달러를 조사한 결과 의외로 어렵고 재미있어서 공유했습니다.또한 자주 사용되는 다음 $t 검정을 설명하지 않았으며 전제조건과 내보내기를 나타냅니다.
가정하지 않음$H0$: 상관수 $\rho=0$, 대립 가설 $H상관 관계 $\rho\neq0달러 감정 고려100달러의 기초 위에서
$$
t =\hat{\rho}\sqrt{\dfrac{n-2}{1-\hat{\rho}^2} }
$$
자유도 $n-2달러의 t분포에 따라 ${n-2,\alpha/2} 달러는 $H로 가정하지 않음0달러 기각{n-2,\alpha/2}달러는 자유도 $n-2달러의 t분포 $\alpha달러의 지점입니다.
상관수의 정의 및 최대 유사 추정량
설명에 들어가기 전에 "매개 변수"와 "추정량"을 명확하게 구분해야 합니다. 이 글은 확률 분포를 정의하는 $\rho$같은 양을 "매개 변수"라고 하고, 얻은 견본 $(X 1, Y 1),\cdots, (X n, Y n) $의 "매개 변수"를 "추정량", "추정량"추정량 "으로 합니다.이 글은 $\hat{rho}처럼 모자로 표시되어 있습니다.
설정 및 문제 정의
확률 변수 $X, Y$$, 각각의 기대치 $$$(\mu{X},\mu{Y})는 $US(\sigma X^2,\sigma Y^2) 달러로 분산됩니다.공분산
$$
\sigma_{XY} =\mathbb{E}[(X-\mu_X)(Y-\mu_Y)]
$$
이 경우 확률 변수 $X, Y$의 상관관계수(≠ 추정치) $\rho$를 (으)로 정의합니다.
$$
\rho =\dfrac{\sigma_{XY}}{\sigma_X\sigma_Y}
$$
로 정의됩니다.
문제는 $\rho달러의 예상 $\hat{rho}달러를 적절하게 선택하여 그 성격을 명확히 하는 것이다.
최대 유사 추정량(MLS)
$\boldsymbol {theeta} 달러를 기반으로 하는 확률 변수 $Z의 분포 $f (z\mid\boldsymbol {theeta}) $가 주어진다고 가정하십시오. $(각각 독립된) 분포 $f (z\mid\boldsymbol {theeta}) 에서 견본 $(z 1,\cdots,z n) 를 받았을 때
$$
L(\boldsymbol{\theta}) =\sum_i\log f(z_i\mid\boldsymbol{\theta})
$$
의 유사 함수입니다. 이때 $\boldsymbol {theeta}의 최대 유사 추정량(Maximum Likelihood Estimatior:MLS)은 유사 함수 최대화로 정의됩니다. $L (\boldsymbol {theeta}) $\hat {boldsymbol {theeta}:
$$
\hat{\boldsymbol{\theta}} = {\rm argmax}_{\boldsymbol{\theta}} L(\boldsymbol{\theta})
$$
예를 들어, 다음은 각각 $\sigma^2입니다.X,\sigma_Y^2,\sigma_{XY}^2달러짜리 MLS가 되다.
\hat{\sigma}^2_X = \dfrac{1}{n} \sum_i (x_i - \bar{x})^{2} \\
\hat{\sigma}^2_Y = \dfrac{1}{n} \sum_i (y_i - \bar{y})^2 \\
\hat{\sigma}_{XY} = \dfrac{1}{n} \sum_i (x_i - \bar{x}) (y_i - \bar{y})
$n을 제외한 주의 사항
방차를 계산할 때 $n-1달러를 나누는 것이 표준이라는 것을 아는 사람에게는 $n을 나누는 것이 위화감을 느낄 수 있습니다. 방차 평가를 $n-1달러로 나누는 것은 추정량의 편차를 확보하기 위해서입니다(예상 기대치와 파라미터가 일치하는 성질).MLS는 편차 추정이 아닙니다.
$$
\mathbb{E}[\hat{\sigma}^2_X] =\dfrac{n-1}{n}\sigma^2_X\neq\sigma^2_X
$$
따라서 $\sigma^2 매개변수는그러나 $n\to\infty 달러의 한계에서 MLS는 편리한 성질을 가지고 있기 때문에 이 글에서 MLS를 사용합니다.
MLS는 다음과 같은 반가운 성질을 가지고 있다.
$\hat{boldsymbol{theeta}달러의 MLS를 $\hat{boldsymbol{\theeta}로 설정하면
$$
\sqrt{n} (\hat{\boldsymbol{\theta}} -\boldsymbol{\theta})\to_{d}\mathcal{N}({\bf 0},\boldsymbol{I}(\boldsymbol{\theta})^{-1})
$$
그러나 $\mathcal{N}({\bf0},\boldsymbol{I}(\boldsymbol{theeta})^{[1}) 평균 ${{bf0}, 공분산 행렬$\boldsymbol{I}(\boldsymbol{theeta})^{-1} 달러의 다변수 정규 분포는 $가 다음과 같습니다.
$$
\boldsymbol{I}(\boldsymbol{\theta}) =\mathbb{E}\left[\dfrac{\partial}{\partial\boldsymbol{\theta}}\log f(Z\mid\boldsymbol{\theta})\dfrac{\partial}{\partial\boldsymbol{\theta}^t}\log f(Z\mid\boldsymbol{\theta})\right]
$$
간단히 말하면, MLS는 견본 수량의 충분한 극한에서 진가 $\boldsymbol {\theta}까지 수렴할 것을 보장합니다.
또한 MLS는 불변성(≠ 편향성)의 얻기 어려운 성질을 가지고 있다.
$\boldsymbol {theeta} 매개 변수의 평가를 고려할 때 $\hat {boldsymbol {theeta}이 $\boldsymbol {theeta}의 MLS라면 $g는 $\boldsymbol {theeta}의 MLS입니다.
이게 누적 상관수예요.
$$
\hat{\rho} =\dfrac{\sum_i (X_i -\bar{X}) (Y_i -\bar{Y}) }{\sqrt{\sum_i (X_i -\bar{X})^2\sum_i (Y_i -\bar{Y})^2 }} = \dfrac{\hat{\sigma}_{XY}}{\hat{\sigma}_X\hat{\sigma}_Y}
$$
그러면 $\hat{rho}은(는) 상관관계가 $\rho달러인 MLS를 즉시 내보냅니다.
위에서 말한 바와 같이 누적 상관수 $\hat{rho}는 상관수 $\rho의 적당한 추정량 중의 하나이다.
MLS가 따르는 분포 및 상관계수의 감정
누적 계수 상관수 $\hat{rho}달러는 $X, Y$X의 분포에 따라 MLS가 되지 않습니다. 다음은 구체적인 분포를 가정하여 MLE$\hat{rho}달러의 확률 분포와 가설 검정을 내보냅니다.
상관 계수 MLS에 따른 분포
확률 변수 $X, Y$가 상관계수 $\rho달러의 정적 분포를 따르면, MLE$\hat{rho}달러의 정적 분포를 계산할 수 있습니다. 협방차 행렬(축소)을 사용하여 Wishart 분포를 따르고, 변수를 적절하게 변환하며, 감마 함수 $\Gamma(z)$의 성질을 사용합니다.
f(\hat{\rho} = r \mid \rho) = \dfrac{ (1-\rho^2)^{(n-1)/2} (1-r^2)^{(n-4)/2} }{ \sqrt{\pi} \Gamma \left(\dfrac{n-1}{2} \right)\Gamma\left(\dfrac{n-2}{2} \right)}\sum_{k=0}^{\infty} \dfrac{(2\rho r)^k}{k!} \Gamma \left(\dfrac{n+k-1}{2} \right)^2
이 공식은 $\rho=0$의 경우에만 한정되며 다음과 같은 간단한 형식입니다.
f(\hat{\rho} = r \mid \rho) \propto (1-r^2)^{(n-4)/2}
지금
$$
t = r\sqrt{\dfrac{n-2}{1-r^2}}
$$
변수가 $t로 변환되는 확률 분포
$$
f(t\mid\rho)\propto\left( 1 +\dfrac{t^2}{n-2}\right)^{-(n-1)/2}
$$
이것이 바로 자유도 $n-2달러Student의 $t 분포입니다.
상관계수 감정에 사용된 가설
방금 내보낸 바에 의하면 다음과 같은 가설은 $X를 검정하고 Y$는 정적 분포를 따른다는 것을 알 수 있다. 반대로 정적 분포에 따라 샘플 수 $n은 많지 않아도 Student의 $t달러 분포에 따라 엄격하게 검정할 수 있다.
가정하지 않음$H0$: 상관수 $\rho=0$, 대립 가설 $H상관 관계 $\rho\neq0달러 감정 고려100달러의 기초 위에서
$$
t =\hat{\rho}\sqrt{\dfrac{n-2}{1-\hat{\rho}^2} }
$$
자유도 $n-2달러의 t분포에 따라 ${n-2,\alpha/2} 달러는 $H로 가정하지 않음0달러 기각{n-2,\alpha/2}달러는 자유도 $n-2달러의 t분포 $\alpha달러의 지점입니다.
수치 시뮬레이션
위키백과에 따르면 MLE$hat{rho}달러는 편파적으로 추측할 수 없는 것이 아니기 때문에 (절대치로 볼 때) 작은 추측을 하기 쉽다. 좀 신경 쓰이기 때문에 간단한 코드로 시험해 봤다.
다음은 $\rho=0.0, 0.50.8달러, 샘플 수는 $n=20000달러로 MLS의 분포 상황을 계산합니다. 시험 횟수(생성된 $n달러의 샘플에 따라 MLS를 계산하는 횟수)는 $N=4000달러입니다.

상관수는 $-1에서 $1의 값만 얻기 때문에 상관수의 추정값(절대값)은 확실히 상승할 수 없습니다.
$n=10달러에서 $n=500달러로 $\rho=0.8달러에 고정된 동시에 $\hat{rho}의 분포를 보여 줍니다. 파란색 선은 MLS의 산술 평균치를 나타내고, 옅은 파란색 범위는 MLS의 표준 편차를 나타냅니다. 확실히 MLE$hat{rho}달러는 실제 인자 $\rho달러보다 낮은 경향이 있습니다.

요약 및 기타 상관 계수
적률 상관수 $\hat{rho}가 상관수 $$\rho의 MLS가 된 것은 MLS가 가지고 있는 강한 성질(불변성) 때문이다.
상관수일 뿐이지만 분포 형태는 $\rho=0달러의 경우에만 간략화됩니다.
아무것도 고려하지 않고 $t 감정을 하는 것은 간단하지만, 그 전제 ($X, Y $정규 분포를 따르는 것) 를 미리 파악하는 것도 중요하다.
또한 MLS는 때때로 약간의 편차가 있을 수 있는데, 나는 이것이 의외로 알려지지 않은 일이라고 생각한다.
상관수는 Pearson의 누적률 뿐만 아니라 Spearman의 순위 관련 등 여러 가지가 있습니다. 순위 관련은 확률 변수의 순위에만 초점을 맞추기 때문에 편차값에 강한 효과가 있습니다. 순위와 관련된 수학적 성질에도 관심이 많습니다.누적 관련보다 더 어려울 것 같아.
참고 문헌
구보천달도:'현대 수리 통계학의 기초'와 그 보충 자료
https://sites.google.com/site/ktatsuya77/xian-dai
※MathStat_hosoku.pdf식(6)의 $(-\rho^2)달러는 $$$\rho^2의 오자로 여겨집니다.
또한 구보천의 pdf에서는 견본수가 아니라 자유도가 n달러이기 때문에 화식(6) 사이에 편차가 있다.

좋은 웹페이지 즐겨찾기