2.2 : Using Categorical Data with One Hot Encoding

전회까지는 데이터를 취급할 때에, 취급할 정도의 데이터를 편집, 혹은 컬럼마다 삭제해 버리는 이야기를 했습니다. 그렇다면 어떻게 문자열을 다룰 수 있습니까?

이 장의 제목에있는 One-Hot Encoding은 단어 등을 프로그래밍 방식으로 처리하기 위해 카테고리를 01로 분류하는 방법입니다.

이런 식으로 단어를 벡터로 취급 할 수 있습니다.

예

튜토리얼의 샘플 코드가 조금 알기 어려웠기 때문에, 어느 정도 오리지날인 것을 샘플로서 소개합니다.

# おなじみ
import pandas as pd

# pathを短く
melbourne_file_path = '../input/melb_data.csv'
melbourne_data = pd.read_csv(melbourne_file_path) 
print(melbourne_data.columns)

우선은 매번 친숙한 데이터 세트의 준비로부터. 전회까지의 커널을 시도했는데 능숙하지 않았기 때문에 새로운 커널을 사용하고 있습니다.

새 커널이면 데이터 세트가 다운로드되지 않았으므로 Code 옆의 Data 탭에서 검색하여 추가해야 합니다.

path에 대해 "../input/melb_data.csv"라고 잘 작동했습니다. 불투명한 디렉토리 구조로 인해 오류에 유의하십시오.

# データ分割用のライブラリをインストール
from sklearn.model_selection import train_test_split

# 本来はこんなにありませんが、練習のため全部入れてみました
melbourne_predictors = ['Suburb', 'Address', 'Rooms', 'Type', 'Price', 'Method', 'SellerG',
       'Date', 'Distance', 'Postcode', 'Bedroom2', 'Bathroom', 'Car',
       'Landsize', 'BuildingArea', 'YearBuilt', 'CouncilArea', 'Lattitude',
       'Longtitude', 'Regionname', 'Propertycount']

# train_predictorsが欲しかったので、ここに格納してあげます。
train_predictors = melbourne_data[melbourne_predictors] 

# やっとです。各カラムのデータ型を表示します
train_predictors.dtypes.sample(10)

Price           float64
BuildingArea    float64
Method           object
Longtitude      float64
Postcode        float64
Date             object
Address          object
YearBuilt       float64
Regionname       object
Landsize        float64
dtype: object

튜토리얼과는 다른 결과가 됩니다만, 확실히 데이터형이 혼재하고 있군요.

Reference

이 문제에 관하여(【Kaggle의 시작 방법】 튜토리얼 ML 편 part4), 우리는 이곳에서 더 많은 자료를 발견하고 링크를 클릭하여 보았다 https://qiita.com/zozo/items/a6fc76128691fb9575d1

텍스트를 자유롭게 공유하거나 복사할 수 있습니다.하지만 이 문서의 URL은 참조 URL로 남겨 두십시오.

우수한 개발자 콘텐츠 발견에 전념 (Collection and Share based on the CC Protocol.)

좋은 웹페이지 즐겨찾기

개발자 우수 사이트 수집

개발자가 알아야 할 필수 사이트 100선 추천 우리는 당신을 위해 100개의 자주 사용하는 개발자 학습 사이트를 정리했습니다