[codexa]통계 입문 (전편)

2857 단어 codexa파이썬통계
  • 통계 입문 (전편)

  • htps : //s tden t. 이걸로. 네 t/콘텐 ts/ゔぃえw/44
  • 기계 학습에 대한 통계

  • 대상
  • 앞으로 기계 학습을 배우려는 사람
  • 통계의 기본에 불안한 사람


  • 기계 학습 및 통계



    통계란?


  • 데이터를 분석하여 특성을 조사하고 추측
  • 추측 통계 : 수집 된 데이터 (표본 및 샘플이라고도 함)로부터 모집단 (전체)의 성질을 확률 통계적으로 추측한다
  • 설명 통계 : 수집 된 데이터의 통계량 (평균, 분산 등)을 계산하여 분포
    데이터를 보여주는 경향과 성격을 알 수 있습니다.


  • 도트 플롯과 히스토그램


  • 흩어져있는 데이터를 쉽게 분석하고 그래프로 표시
  • 도수 분포표
  • 통계 자료를 계급으로 나누어 각 계급마다의 도수를 표의 형식으로 나타낸 것.

  • 도트 플롯
  • 통계 그래프의 일종. 가로축에 명의척도(카테고리, 번호 등)를 취하여 1표본을 1개의 점(점)으로 표현한다.

  • 히스토그램
  • 통계 그래프의 일종. 세로축에 도수, 가로축에 계급을 취하여 표현한다.

  • # 使用するライブラリのインポート
    import numpy as np
    import matplotlib.pyplot as plt
    # 練習問題「ゴルフのスコア」データ作成
    golf = np.array([110,107,121,137,87,92,104,129,98,99,139,82,105,100,114,122,109,94,106,111])
    
    
    # ヒストグラムの作成
    plt.hist(golf, range=[80,140], bins=6)
    plt.grid(True)
    plt.show()
    



    평균값, 중앙값, 최빈값


  • 평균치(mian)
  • 총 데이터 값을 데이터 수로 나눈 값

  • 중앙값(median)
  • 작은 순서로 데이터를 정렬 할 때 가운데에 오는 값
  • 데이터 수가 짝수이면 두 값의 중간을 중앙값으로 설정합니다.

  • 최빈값(mode)
  • 가장 자주 나타나는 값

  • 사분위 범위(Interquartile range)
  • 데이터 편차의 크기 (흩어져있는 상태)를 나타내는 지표

  • # 使用するライブラリのインポート
    import numpy as np
    # 練習問題「1日のコーヒーの量」データ作成
    coffee = np.array([2,2,3,5,7,9,10,15,16])
    coffee.mean() #平均値(Mean)
    np.median(coffee) #中央値(Median)
    # 「coffee」のデータから中央値を除いて前半(Q1)と後半(Q3)に分ける
    coffee_q1 = np.array([2,2,3,5])
    coffee_q3 = np.array([9,10,15,16])
    # Q1とQ3の中央値(Median)を求めよう
    q1_median = np.median(coffee_q1)
    q3_median = np.median(coffee_q3)
    # IQRを算出
    # 後半の中央値から前半の中央値を引く
    IQR = q3_median - q1_median
    # 答え確認
    print(coffee_q1)
    print(coffee_q3)
    print(IQR)
    
    [2 2 3 5]
    [ 9 10 15 16]
    10.0
    

    분산 및 표준 편차


  • 데이터의 흩어짐 상태를 나타내는 것
  • 모집단
  • 모든 데이터

  • 표본
  • 모집단에서 일부를 검색한 데이터

  • 모 평균 = μ(뮤)
  • 모 분산
  • 평균에서 각 데이터 포인트가 얼마나 떨어져 있습니까

  • 모집단 표준 편차

  • 표본 표준 편차


  • 표본 분산
  • 샘플 분산은 샘플에서 계산 된 분산
  • 모집단에 비해 표본 수가 적을 때 표본 분산이 모 분산보다 작아진다.

  • 불편 분산
  • 표본 분산이 모 분산과 같도록 보정 된 것


  • 특이치와 평균값/중앙값


  • 이상값(Outlier)
  • 다른 값에서 크게 벗어난 값
  • 이상값 < (Q1 - 1.5 * IQR)
  • (Q3 + 1.5 * IQR) < 이상치

  • 좋은 웹페이지 즐겨찾기