【Kaggle의 시작 방법】 튜토리얼 ML 편 part4
【Kaggle의 시작 방법】 튜토리얼 ML 편 part3
이제 데이터 세트에 포함 된 누락 값 보상을 다루었습니다.
이번에는 level 2.2부터 시작하겠습니다.
2.2 : Using Categorical Data with One Hot Encoding
전회까지는 데이터를 취급할 때에, 취급할 정도의 데이터를 편집, 혹은 컬럼마다 삭제해 버리는 이야기를 했습니다. 그렇다면 어떻게 문자열을 다룰 수 있습니까?
이 장의 제목에있는 One-Hot Encoding은 단어 등을 프로그래밍 방식으로 처리하기 위해 카테고리를 01로 분류하는 방법입니다.
이런 식으로 단어를 벡터로 취급 할 수 있습니다.
예
튜토리얼의 샘플 코드가 조금 알기 어려웠기 때문에, 어느 정도 오리지날인 것을 샘플로서 소개합니다.
# おなじみ
import pandas as pd
# pathを短く
melbourne_file_path = '../input/melb_data.csv'
melbourne_data = pd.read_csv(melbourne_file_path)
print(melbourne_data.columns)
우선은 매번 친숙한 데이터 세트의 준비로부터. 전회까지의 커널을 시도했는데 능숙하지 않았기 때문에 새로운 커널을 사용하고 있습니다.
새 커널이면 데이터 세트가 다운로드되지 않았으므로 Code 옆의 Data 탭에서 검색하여 추가해야 합니다.
path에 대해 "../input/melb_data.csv"라고 잘 작동했습니다. 불투명한 디렉토리 구조로 인해 오류에 유의하십시오.
# データ分割用のライブラリをインストール
from sklearn.model_selection import train_test_split
# 本来はこんなにありませんが、練習のため全部入れてみました
melbourne_predictors = ['Suburb', 'Address', 'Rooms', 'Type', 'Price', 'Method', 'SellerG',
'Date', 'Distance', 'Postcode', 'Bedroom2', 'Bathroom', 'Car',
'Landsize', 'BuildingArea', 'YearBuilt', 'CouncilArea', 'Lattitude',
'Longtitude', 'Regionname', 'Propertycount']
# train_predictorsが欲しかったので、ここに格納してあげます。
train_predictors = melbourne_data[melbourne_predictors]
# やっとです。各カラムのデータ型を表示します
train_predictors.dtypes.sample(10)
Price float64
BuildingArea float64
Method object
Longtitude float64
Postcode float64
Date object
Address object
YearBuilt float64
Regionname object
Landsize float64
dtype: object
튜토리얼과는 다른 결과가 됩니다만, 확실히 데이터형이 혼재하고 있군요.
Reference
이 문제에 관하여(【Kaggle의 시작 방법】 튜토리얼 ML 편 part4), 우리는 이곳에서 더 많은 자료를 발견하고 링크를 클릭하여 보았다
https://qiita.com/zozo/items/a6fc76128691fb9575d1
텍스트를 자유롭게 공유하거나 복사할 수 있습니다.하지만 이 문서의 URL은 참조 URL로 남겨 두십시오.
우수한 개발자 콘텐츠 발견에 전념
(Collection and Share based on the CC Protocol.)
# おなじみ
import pandas as pd
# pathを短く
melbourne_file_path = '../input/melb_data.csv'
melbourne_data = pd.read_csv(melbourne_file_path)
print(melbourne_data.columns)
# データ分割用のライブラリをインストール
from sklearn.model_selection import train_test_split
# 本来はこんなにありませんが、練習のため全部入れてみました
melbourne_predictors = ['Suburb', 'Address', 'Rooms', 'Type', 'Price', 'Method', 'SellerG',
'Date', 'Distance', 'Postcode', 'Bedroom2', 'Bathroom', 'Car',
'Landsize', 'BuildingArea', 'YearBuilt', 'CouncilArea', 'Lattitude',
'Longtitude', 'Regionname', 'Propertycount']
# train_predictorsが欲しかったので、ここに格納してあげます。
train_predictors = melbourne_data[melbourne_predictors]
# やっとです。各カラムのデータ型を表示します
train_predictors.dtypes.sample(10)
Price float64
BuildingArea float64
Method object
Longtitude float64
Postcode float64
Date object
Address object
YearBuilt float64
Regionname object
Landsize float64
dtype: object
Reference
이 문제에 관하여(【Kaggle의 시작 방법】 튜토리얼 ML 편 part4), 우리는 이곳에서 더 많은 자료를 발견하고 링크를 클릭하여 보았다 https://qiita.com/zozo/items/a6fc76128691fb9575d1텍스트를 자유롭게 공유하거나 복사할 수 있습니다.하지만 이 문서의 URL은 참조 URL로 남겨 두십시오.
우수한 개발자 콘텐츠 발견에 전념 (Collection and Share based on the CC Protocol.)