2기 - Day 8

[Today I Learned]

Warm-up

  • 중심 극한 정리 (Central Limit Theorem)
    • 모집단에 관계없이 표본 평균의 분포는 정규분포를 따른다 (정규
    • 단, 표본의 평균을 구할 수 있어야 하고 표본의 크기가 충분히 커야 한다 (최소 30이상 )
    • 많은 통계 검증에 표본의 평균을 사용하므로 중심 극한 정리 개념을 이해하고 있어야 한다
  • 신뢰구간 (Confidence Interval)
    • 모집단의 모수가 포함될 것으로 예측되는 범위
    • 항상 모집단 전체를 조사하는 것이 불가능하므로, 표본 데이터를 기반으로 모집단의 모수를 추정하기 위해 사용된다
    • (estimated mean - error , estimated mean + error)

Session - n123

  • ANOVA
    • 2개 이상 그룹을 비교하기 위해 사용하는 가설 검정 방법
    • 여러 그룹을 두 그룹씩 비교하며 t-test를 할 경우 그룹의 수가 늘어날 수록 통계적으로 발생하는 에러도 커진다. (한번의 t-test에서 통계적으로 에러가 발생할 확률은 alpha 이고 m개의 그룹을 각각 t-test할 경우 발생하는 총 에러 확률은 1-(1-alpha)3 이다)
    • F-statistic
    • Scipy에 구현되어 있다.
from scipy.stats import f_oneway
f_oneway(group1, grouup2, group3)
  • 큰 수의 법칙 (Law of large numbers) : 표본의 크기가 커질수록, 표본의 통계치는 점점 모집단의 모수에 가까워진다.

  • CLT : 표본의 데이터의 수가 많아질 수록, 표본의 평균은 정규분포에 근사한다.

  • 점추정 vs 구간추정

  • 신뢰도 95%의 의미 : 다른 표본을 사용하여 신뢰구간의 계산을 반복적으로 반복했을 때, 그중 95%의 신뢰구간은 실제 참 평균값(모집단의 평균)을 포함한다.

과제

<과제 하면서 새롭게 배운 내용>

  • barplot에 신뢰구간을 그리는 법
  • matplotlib에서 수평선 그리는 법
plt.axhline(s1_mean,0.14,0.35,linewidth='2', color = 'black')

좋은 웹페이지 즐겨찾기