Kaggle의 공식 강좌 「기계 학습 입문」을 해설:Lesson2 「데이터 이해의 기초」

이 기사는 Kaggle가 제공하고 있는 강좌(Corses)의 「Intro to Machine Learning」의 Lesson1에 대해 설명합니다. 영어가 약해서 기계 학습에 대해 잘 모른다! ! 라는 사람을 위한 기사입니다.
영어 혹은 기계 학습의 어느쪽이든을 아는 사람에게는 공부가 된다고 생각하므로, 원저를 추천합니다.
여기 원저입니다.
영어도 기계 학습도 아는 사람에게는, 원저도 이 기사도 읽을 필요는 없을까 생각합니다.

Lesson1은 여기를 클릭

<Lesson2> 데이터 이해의 기초



· 데이터 이해를 위해 Pandas를 사용합시다.



머신러닝을 통한 데이터 분석에서 가장 먼저 하는 일은 데이터에 대해 잘 알고 있는 것입니다. 데이터에 대한 이해를 높이거나 데이터를 조작하기 위해 Pandas라는 라이브러리가 편리하고 자주 사용됩니다. Pandas의 가장 중요한 특징은 데이터 프레임이라고 하는 데이터를 저장하기 위한 상자가 있다는 것입니다. 구체적으로는 다음과 같은 형식입니다.


한 줄에 하나의 주택 데이터가 저장됩니다. 1번 왼쪽의 0,1,2,...는 주택의 인덱스입니다. 위에 써 있는 Suburb(교외)・Address(주소)・Rooms(방의 개수)등은, 무엇에 대한 데이터인가(특징량의 종류)로, 열명이라고도 말하기도 합니다. 특징량이라고 하는 것은, 그 데이터(이번이라면 주택)의 특징을 수치나 캐릭터 라인으로 나타낸 것입니다.

이 데이터는 멜버른 주택 가격 예측 경쟁에 있는 데이터입니다. 실제로 표시하고 싶은 사람은 여기에서 날아 New Newtebook을 누르십시오.


이렇게 코드를 작성하면 표시됩니다.

display.py
import pandas as pd
df = pd.read_csv('../input/melbourne-housing-snapshot/melb_data.csv')
df #df.head()とすると上から5行のみが表示される



그런 다음 숫자 데이터의 통계량을 표시합니다.



열 이름은 특성의 이름이고 행 이름은 통계의 이름입니다. 통계량에 대해 간단히 설명해 둡니다.


1
2


count
누락 데이터(NaN)가 아닌 데이터 수

mean
데이터 평균

std
데이터 분산

min
최소값

25%
작은 분으로부터 25%에 있는 데이터

50%
작은 분으로부터 50%에 있는 데이터(중앙값)

75%
작은 분으로부터 75%에 있는 데이터

최대
최대값



다음과 같은 코드로 표시됩니다.

statistic1.py
df.describe()

덧붙여서 Kaggle의 강좌에는 없습니다만, 카테고리 데이터의 통계량도 낼 수 있습니다.


통계량에 대해 간단히 설명해 둡니다.


1
2


count
누락 데이터(NaN)가 아닌 데이터 수

unique
데이터 유형 수(고유 데이터 수)

top
최빈값

freq
최빈값 출현 횟수


unique는 예를 들면, 어느 열의 데이터가 a, a, c, d, e, e, e이면 데이터의 종류는 a, c, d, e의 4종류이므로 4가 됩니다.

아래와 같이 쓰면 표시됩니다.

statistic2.py
df.describe(exclude='number')

이상이 Lesson2의 데이터 이해의 기초가 됩니다. 다음은 Lesson3 네요. 최선을 다합시다!

Lesson3은 여기입니다.

좋은 웹페이지 즐겨찾기