[AI Bootcamp] N121 - Hypothesis Test
Session Review
Descriptive Statistics (Summary Statistics)
기술 통계치(Descriptive Statistics)
e.g. count, mean, standard dev, min, 1Q, median, 3Q, max -> 데이터를 설명하는 값
👀 mean(평균)과 median(중앙값)은 언제 사용할까?
평균은 분포가 치우쳐지지 않았을 때 주로 쓰고, 중앙값은 극단적인 값이 있을 때 유용
b.c 극단치가 있을 때 평균을 계산하면 그 결과가 왜곡될 가능성이 많기 때문 -> 등수대로 줄 세워서 가운데 값을 뽑는게, 그 집단을 대표하는 값으로 더 적절하다고 봄
테크닉 기술이 아니라 묘사의 기술 -> 현재의 데이터에 대해 파악하고자 할 때 사용
- 시각화: Box plot, Bag plot, Violin plot etc
- Box-Whisker plot: 가장 대표적인 시각화 방법
- Bag plot: Box plot을 좀 더 다양한 변수를 포함하도록 변형한 것이나, 너무 난해해서 잘 쓰이지 않음
- Violin plot: Box plot에 분포를 반영한 것 -> 데이터마다 모양 달라짐
Inferential Statistics
추리 통계치(Inferential Statistics)
현재 데이터의 모집단에 대해 잘 알지 못할 때, 일부를 가지고 전체를 짐작해보는 것
Effective Sampling
- Simple Random Sampling: 완전 무작위 추출
- Systematic Sampling: 규칙을 가지고 추출
- Stratified Random Sampling: 모집단을 미리 여러 그룹으로 나누고, 그 그룹별로 내에서 무작위 추출
- Cluster Sampling: 모집단을 미리 여러 그룹으로 나누고, 이후 특정 그룹 전체를 무작위로 선택
-> 데이터 형태에 따라 sampling 방식 달라짐
Hypothesis Testing: 가설 검정
주어진 상황에서, 하고자 하는 주장이 맞는지 아닌지를 판정하는 과정
-> 모집단의 실제 값에 대한 sample의 통계치를 사용하여 통계적으로 유의한지 아닌지 여부 판정
❗️ 표본 평균의 표준 오차(Standard Error of the Sample Mean):
sample 수의 중요성 -> 표본의 수가 많으면 많을수록 무작위성을 고려하더라도 더 높은 신뢰성을 가짐
Student T-test
t-test process
1. 가설 수립 -> H0(귀무), H1(대립, 대안)
2. 데이터 파악(표본의 평균, 특정값)
3. 신뢰도 설정 -> 유의역의 범위와 관련 있음 (보통 95, 99% 사용)
4. P-value 몇 인가? (단측, 양측검정에 따라 판단기준 다름)
-> 단측 검정: 0.05 / 양측 검정: 0.025 *2
5. 귀무가설이 맞는지, 대립가설이 맞는지 확인
P-value의 기준
- pv < 0.01(0.05): 귀무가설이 옳을 확률 1%(5%) 이하: 틀렸다
- 0.05< pv < 0.1: 애매함
- pv > 0.1: 귀무가설이 옳을 확률 10% 이상 -> 귀무가설이 틀리지 않았을 것이다
One Sample t-test
1개의 sample 값들의 평균이 특정값과 동일한지 비교
from scipy import stats
stats.ttest_1samp(sample 데이터, 비교하려는 값)
pv가 (1-confidence(0.95 or 0.99))보다 낮은 경우, 귀무가설 기각, 대안가설 채택
One-side vs. Two-side
One-side test: 샘플 데이터의 평균이 특정값 "X" 보다 크다 or 작다 / 크지 않다 or 작지 않다
Two-side test: 샘플 데이터의 평균이 특정값 "X"와 같다 / 같지 않다 (같지 않다에는 크다, 작다 포함이므로 two-side)
Two Sample t-test
2개의 sample 값들의 평균이 서로 동일한지 비교
from scipy import stats
stats.ttest_ind(sample data1, sample data2, alternative='two side(default), greater, less')
❗️ 단측 검정을 할 경우라면, 예를 들어 ttest-ind(A, B, alternative='greater') 를 한다면
귀무가설은 "두 집단의 평균이 같다"가 아닌 "A가 B보다 작거나 같다"가 된다.
-> alternative가 대안이라는 의미라는 점에서 대안가설이 "A가 B보다 크다"이므로 귀무가설은 "A가 B보다 작거나 같다"가 됨
❓ 귀무가설 vs. 대립가설(대안가설)
❓ 정규분포
Assignment
❗️ pd.read_csv(url, se='' ...) #sp: 어떤 것으로 구분되는가 default는 comma(,)
❗️ np.random.seed() # random으로 값을 뽑을 때 키가 되는 값. 한 번 실행되면 다시 실행해도 같은 값이 나오도록 해줌. colab 기준 다른 셀에는 영향 미치지 않음
Author And Source
이 문제에 관하여([AI Bootcamp] N121 - Hypothesis Test), 우리는 이곳에서 더 많은 자료를 발견하고 링크를 클릭하여 보았다 https://velog.io/@jinyjib/AI-Bootcamp-n121-Hypothesis-Test저자 귀속: 원작자 정보가 원작자 URL에 포함되어 있으며 저작권은 원작자 소유입니다.
우수한 개발자 콘텐츠 발견에 전념 (Collection and Share based on the CC Protocol.)