1. Python으로 배우는 통계학 1-1. 기본 통계량(Pandas)

통계학에는 다양한 용어가 사용됩니다.
평균이나 편차치 등, 매우 친밀한 것으로부터, 평상시 별로 익숙하지 않은 것까지 많이 있습니다만,
우선, 기본적인 용어에 대해서, 그 의미를 올바르게 이해하는 곳으로부터 시작하고 싶습니다.
(원칙적으로 Google Colaboratory에서 코드 작성 및 결과를 확인합니다.)

⑴ 수치 계산에 사용하는 라이브러리를 가져오기


import numpy as np
import pandas as pd

⑵ 데이터 세트 읽기


df = pd.read_csv("https://raw.githubusercontent.com/karaage0703/machine-learning-study/master/data/karaage_data.csv")

pandas read_csv 함수를 사용하여 ( "파일 이름")에 지정된 csv 파일을 읽고 변수 df에 저장합니다.

⑶ 데이터의 내용을 확인한다


df.head()
head 함수가 변수 df에 저장된 데이터의 처음 5행만 표시합니다.


x와 y라는 두 가지 변량으로 구성된 데이터임을 알 수 있습니다.

⑷ 기본 통계량을 산출한다


df.describe()

pandas describe 함수는 기본 통계 목록을 가져옵니다.


그런데, 통계량이라는 용어입니다만, 데이터를 집계한 값을 그렇게 부릅니다.
통계를 보면 표본의 특징을 알 수 있습니다.
기본 통계량으로 표시된 8개의 통계량, 각각의 용어의 의미를 확인해 둡니다.



통계량
변량 x
변량 y
용어의 의미


count
샘플 수
6
6
n=6 즉 모두 6행분의 데이터가 들어 있다

mean
평균값
14.33
3.33
이른바 대표값(표본을 대표하는 값)으로 사용

std
표준편차
16.01
1.51
standard deviation의 약자로 데이터가 얼마나 변동하는지를 나타내는 통계량 중 하나

min
최소값
1.00
2.00
그 변량 중 가장 작은 값

25%
제1사분위수
2.75
2.25
데이터를 작은 순서로 정렬했을 때, 데이터 개수를 작은 쪽으로부터 세어 1/4에 해당하는 값

50%
두 번째 사분위수
7.50
3.00
데이터를 작은 순서로 정렬했을 때, 데이터 개수를 작은 쪽으로부터 세어 4분의 2번째에 해당하는 값

75%
제3사분위수
23.50
3.75
데이터를 작은 순서로 정렬했을 때, 데이터 개수를 작은 쪽으로부터 세어 4분의 3째에 해당하는 값

최대
최대값
40.00
6.00
그 변량 중 가장 큰 값


⑸ 기본 통계량을 개별적으로 산출한다



먼저 평균을 계산해 보겠습니다.
df.describe().loc['mean']



계속해서 표준편차, 제1 사분위수를, loc['xxx'] 에 그 통계량을 지정해 계산합니다.
df.describe().loc['std']


df.describe().loc['25%']



이상, Pandas를 이용하여 기본적인 통계량을 보았습니다.
이어서, 이번에는 Numpy를 사용하여 각종 통계량을 계산해 보고, 그 통계량의 대략적인 계산 방법이나 특징에 대해 고찰합니다.

좋은 웹페이지 즐겨찾기