통계학의 대표적인 방법을 실천한다 (1)

니시우치 케이씨 저서의 「통계학이 가장 강한 학문」와「통계학이 최강의 학문인 실천편」는 시리즈 누계 37만부를 돌파하는 이례의 베스트셀러가 되었습니다. 읽은 분도 많지 않을까요?

이 전후 2권에서는, 통계학의 교과서에 등장하는 여러가지 수법을 「 일반화 선형 모델 」라고 하는 생각에 근거해 1장의 표에 정리하고 있습니다.

여기에서는 그 표를 인용하겠습니다.

통계학이 최강의 학문인 p170 일반화 선형 모델을 정리한 한 장의 표



통계학이 최강의 학문인 실천편 p344 통계학의 이해가 극적으로 진행되는 1장의 표 증보판



이 두 권은 비즈니스에서 자주 사용하는 통계 기법에 대해 한 번에 그들이 어떤 의미를 이루고 있는지, 어떤 아이디어에서 태어나 어떻게 사용해야 하는지에 대해 설명합니다.

또한 상위 실천편 p357에서는 본서에서는 얻을 수 없는 3개의 지식으로서
1. 툴과 실 데이터를 사용한 실천
2. 수리면에서의 수법의 깊은 이해
3. 최근 태어난 보다 발전적인 수법
를 들고 있습니다.

이번부터 특히 상기 1.에 주목해, 지금까지 사용해 온 분석용 언어로 실천을 하는데 있어서 간단한 데이터를 바탕으로 예를 들어 가고 싶습니다.

그렇다고 해도 지금까지 기술해 온 중에서 이미 행하고 있는 것도 있으므로, 그러한 복습을 겸해 진행해 갑시다.

케이스 컨트롤 연구와 카이 제곱 검정



역학적 추계의 첫번째로 불리는 인형과 언덕의 「케이스 컨트롤 연구」의 이야기입니다.

폐암과 흡연의 관련성으로서 1948~1952년에 걸쳐 영국 중의 병원으로부터 1465명의 폐암에 의한 입원 환자의 데이터를 조사한 결과 다음과 같았습니다.



인원수
흡연자
비흡연자


남성에서 폐암 환자
1357년
1350(99.5%)
7(0.5%)

남성에서 비폐암 환자
1357년
1296(95.5%)
61(4.5%)

여성에서 폐암 환자
108
68(63.0%)
40(37.0%)

여성에서 폐암 환자
108
49(45.4%)
59(54.6%)


역학의 경우는 증례 즉 병이 된 사례(환자)이며, 대조군과는 그 비교 대조입니다.

이 데이터에 대해 카이 제곱 검정을 수행하면 결과는 다음과 같습니다.
import scipy as sp
import scipy.stats as stats

# 男性のデータ (肺がん患者と非肺がん患者)
man = sp.array([[1350, 7], [1296, 61]])
# 女性のデータ (肺がん患者と非肺がん患者)
female = sp.array([[68, 40], [49, 59]])

def chi_squared_test(data):
    """カイ二乗検定をおこなう関数"""
    # カイ二乗値、 p 値、自由度
    x2, p, dof, expected = stats.chi2_contingency(data)
    return x2, p, dof, expected

results = chi_squared_test(man)
results = chi_squared_test(female)

이로 인해 남성의 경우 카이 제곱 값은 42.3704259482 p 값은 7.5523446617e-11 자유도는 1이며 상당한 차이가 나타납니다.
마찬가지로 여성에 대해서도, 카이 제곱값은 6.04195804196 p 값은 0.0139697819212 자유도는 1이 되고, 유의한 차이가 있습니다

이것에 의해 흡연의 유무가 폐암의 증례에 영향이 없다고는 말할 수 없는 것을 알았습니다.

다음에 계속됩니다.

좋은 웹페이지 즐겨찾기