통계학의 대표적인 방법을 실천한다 (1)
4577 단어 statistics파이썬scipy
이 전후 2권에서는, 통계학의 교과서에 등장하는 여러가지 수법을 「 일반화 선형 모델 」라고 하는 생각에 근거해 1장의 표에 정리하고 있습니다.
여기에서는 그 표를 인용하겠습니다.
통계학이 최강의 학문인 p170 일반화 선형 모델을 정리한 한 장의 표
통계학이 최강의 학문인 실천편 p344 통계학의 이해가 극적으로 진행되는 1장의 표 증보판
이 두 권은 비즈니스에서 자주 사용하는 통계 기법에 대해 한 번에 그들이 어떤 의미를 이루고 있는지, 어떤 아이디어에서 태어나 어떻게 사용해야 하는지에 대해 설명합니다.
또한 상위 실천편 p357에서는 본서에서는 얻을 수 없는 3개의 지식으로서
1. 툴과 실 데이터를 사용한 실천
2. 수리면에서의 수법의 깊은 이해
3. 최근 태어난 보다 발전적인 수법
를 들고 있습니다.
이번부터 특히 상기 1.에 주목해, 지금까지 사용해 온 분석용 언어로 실천을 하는데 있어서 간단한 데이터를 바탕으로 예를 들어 가고 싶습니다.
그렇다고 해도 지금까지 기술해 온 중에서 이미 행하고 있는 것도 있으므로, 그러한 복습을 겸해 진행해 갑시다.
케이스 컨트롤 연구와 카이 제곱 검정
역학적 추계의 첫번째로 불리는 인형과 언덕의 「케이스 컨트롤 연구」의 이야기입니다.
폐암과 흡연의 관련성으로서 1948~1952년에 걸쳐 영국 중의 병원으로부터 1465명의 폐암에 의한 입원 환자의 데이터를 조사한 결과 다음과 같았습니다.
인원수
흡연자
비흡연자
남성에서 폐암 환자
1357년
1350(99.5%)
7(0.5%)
남성에서 비폐암 환자
1357년
1296(95.5%)
61(4.5%)
여성에서 폐암 환자
108
68(63.0%)
40(37.0%)
여성에서 폐암 환자
108
49(45.4%)
59(54.6%)
역학의 경우는 증례 즉 병이 된 사례(환자)이며, 대조군과는 그 비교 대조입니다.
이 데이터에 대해 카이 제곱 검정을 수행하면 결과는 다음과 같습니다.
import scipy as sp
import scipy.stats as stats
# 男性のデータ (肺がん患者と非肺がん患者)
man = sp.array([[1350, 7], [1296, 61]])
# 女性のデータ (肺がん患者と非肺がん患者)
female = sp.array([[68, 40], [49, 59]])
def chi_squared_test(data):
"""カイ二乗検定をおこなう関数"""
# カイ二乗値、 p 値、自由度
x2, p, dof, expected = stats.chi2_contingency(data)
return x2, p, dof, expected
results = chi_squared_test(man)
results = chi_squared_test(female)
이로 인해 남성의 경우 카이 제곱 값은 42.3704259482 p 값은 7.5523446617e-11 자유도는 1이며 상당한 차이가 나타납니다.
마찬가지로 여성에 대해서도, 카이 제곱값은 6.04195804196 p 값은 0.0139697819212 자유도는 1이 되고, 유의한 차이가 있습니다
이것에 의해 흡연의 유무가 폐암의 증례에 영향이 없다고는 말할 수 없는 것을 알았습니다.
다음에 계속됩니다.
Reference
이 문제에 관하여(통계학의 대표적인 방법을 실천한다 (1)), 우리는 이곳에서 더 많은 자료를 발견하고 링크를 클릭하여 보았다 https://qiita.com/ynakayama/items/bd0b65716279ae2df957텍스트를 자유롭게 공유하거나 복사할 수 있습니다.하지만 이 문서의 URL은 참조 URL로 남겨 두십시오.
우수한 개발자 콘텐츠 발견에 전념 (Collection and Share based on the CC Protocol.)