[데이터사이언스]개발일기-(7)

1월26일(수)

*Wrap Up:
-1. T-test와 Chi-square Test는 어떤 점이 다를까요?
T-test는 샘플의 평균값을 비교, 카이제곱은 샘플의 분포도를 비교한다.
T-test는 독립성,정규화,등분산성의 조건을 만족해야 한다.
카이제곱은 이러한 조건들을 만족하지 않아도 사용가능한 Non-Parametric Methods중 하나이다. 단, 카이제곱은 “Category” 데이터를 위한 모델링이므로 데이터를 변환(대표적으로 .astype()을 사용 )하여 데이터를 변환후 사용해야 한다.

-2. Chi-square Test에서 관측값(Observed)과 예측값(Expected)은 각각 어떻게 측정되나요?

T-test 사용조건:
1. 독립성 ->서로 짝지어지지 말기
2. 정규성 ->정규분포여야 하기
- 확인방법? Spicy.stats의 Nomaltest로 확인가능

3. 등분산성 ->분산이 서로 다르지 않기
	- 확인방법? 

Type of Error:
-1. Type 1 Error:

귀무가설이 참이나 기각되는경우
어떤효과가 우연히 발생한 것인데 그것이 사실이라고 잘못 판단하는 경우

-2. Type 2 Error:

귀무가설이 거짓이나 기각되지 않는경우
어떤효과가 실제로 있는 것인데 그건 우연히 발생한 것이라고 잘못 판단하는 경우
표본크기가 너무 작아서 효과를 알아낼 수 없다고 판단하는 경우

Non-Parametric Methods
: 모집단이 특정 확률 분포(normal과 같은)을 따른다는 전제를 하지 않는 방식.
-1. Categorical 데이터를 위한 모델링
-2. 극단적 outlier가 있는 경우 매우 유용한 방식

*대표적인 방식으로는 Chisquare , Spearman correlation, Run test, Kolmogorov Smirnov, Mann-Whitney U , Wilcoxon, Kruskal-Wallis 등이 있다.

카이제곱을 구한값은 표준화된 값이 필요하다( ex. x^2 = 0.3125 에 100을 곱하면 x^2 = 31.25)
그래서 이 통계치를 P-value로 바꿔야 하는데 여기서 stats.chi2.cdf() 함수를 사용한다.

타이타닉 데이터를 통해 간단한 카이제곱 검정을 해보자.

타이타닉호 성별에 따라 생존에 차이가 있는가?

우선, 생존자와 성별과의 관계표를 만들자.

귀무가설 : 생존자와 성별과의 관계가 없다.
대립가설 : 생존자와 성별과의 관계가 있다.

p-value = 1.19e-58 이므로 0.05보다 한참 낮다. 즉, 생존자와 성별과의 관계가 있다.(귀무가설이 기각되어 대립가설이 채택될 확률이 높다.)

하나 더 알아보자.

우선, 생존자와 클래스와의 관계표를 만들자.

귀무가설 : 생존자와 클래스(좌석)과의 관계가 없다.
대립가설 : 생존자와 클래스(좌석)과의 관계가 있다.

p-value = 4.54e-23 이므로 0.05보다 한참 낮다. 즉, 생존자와 클래스(좌석)와의 관계가 있다.(귀무가설이 기각되어 대립가설이 채택될 확률이 높다.)

좋은 웹페이지 즐겨찾기