【Kaggle의 시작 방법】 튜토리얼 ML 편 part4

지난번
【Kaggle의 시작 방법】 튜토리얼 ML 편 part3
이제 데이터 세트에 포함 된 누락 값 보상을 다루었습니다.

이번에는 level 2.2부터 시작하겠습니다.

2.2 : Using Categorical Data with One Hot Encoding



전회까지는 데이터를 취급할 때에, 취급할 정도의 데이터를 편집, 혹은 컬럼마다 삭제해 버리는 이야기를 했습니다. 그렇다면 어떻게 문자열을 다룰 수 있습니까?

이 장의 제목에있는 One-Hot Encoding은 단어 등을 프로그래밍 방식으로 처리하기 위해 카테고리를 01로 분류하는 방법입니다.

이런 식으로 단어를 벡터로 취급 할 수 있습니다.



튜토리얼의 샘플 코드가 조금 알기 어려웠기 때문에, 어느 정도 오리지날인 것을 샘플로서 소개합니다.
# おなじみ
import pandas as pd

# pathを短く
melbourne_file_path = '../input/melb_data.csv'
melbourne_data = pd.read_csv(melbourne_file_path) 
print(melbourne_data.columns)

우선은 매번 친숙한 데이터 세트의 준비로부터. 전회까지의 커널을 시도했는데 능숙하지 않았기 때문에 새로운 커널을 사용하고 있습니다.

새 커널이면 데이터 세트가 다운로드되지 않았으므로 Code 옆의 Data 탭에서 검색하여 추가해야 합니다.

path에 대해 "../input/melb_data.csv"라고 잘 작동했습니다. 불투명한 디렉토리 구조로 인해 오류에 유의하십시오.
# データ分割用のライブラリをインストール
from sklearn.model_selection import train_test_split

# 本来はこんなにありませんが、練習のため全部入れてみました
melbourne_predictors = ['Suburb', 'Address', 'Rooms', 'Type', 'Price', 'Method', 'SellerG',
       'Date', 'Distance', 'Postcode', 'Bedroom2', 'Bathroom', 'Car',
       'Landsize', 'BuildingArea', 'YearBuilt', 'CouncilArea', 'Lattitude',
       'Longtitude', 'Regionname', 'Propertycount']

# train_predictorsが欲しかったので、ここに格納してあげます。
train_predictors = melbourne_data[melbourne_predictors] 

# やっとです。各カラムのデータ型を表示します
train_predictors.dtypes.sample(10)
Price           float64
BuildingArea    float64
Method           object
Longtitude      float64
Postcode        float64
Date             object
Address          object
YearBuilt       float64
Regionname       object
Landsize        float64
dtype: object

튜토리얼과는 다른 결과가 됩니다만, 확실히 데이터형이 혼재하고 있군요.

좋은 웹페이지 즐겨찾기