【초보자용 핸즈온】kaggle의 「주택 가격을 예측한다」를 1행씩 읽는다(제5회:카테고리카르변수의 더미화)
제목
유명한 제목인 kaggle의 「House Price」문제에 모두 도전해 가게 된 핸즈온의 내용을 메모해 가는 기획의 제5회. 해설이라기보다는 메모의 정리이기도 합니다만, 어딘가의 누군가를 위해서 되면 다행입니다. 이제 끝이 보였다고 생각하고 싶다.
오늘 작업
범주형 변수 더미화
문자열이라든가를 수치로 치환을 해 가는 느낌입니까.
# カテゴリカル変数の特徴量をリスト化
cat_cols = alldata.dtypes[alldata.dtypes=='object'].index.tolist()
# 数値変数の特徴量をリスト化
num_cols = alldata.dtypes[alldata.dtypes!='object'].index.tolist()
# データ分割および提出時に必要なカラムをリスト化
other_cols = ['Id','WhatIsData']
# 余計な要素をリストから削除
cat_cols.remove('WhatIsData') #学習データ・テストデータ区別フラグ除去
num_cols.remove('Id') #Id削除
# カテゴリカル変数をダミー化
alldata_cat = pd.get_dummies(alldata[cat_cols])
# データ統合
all_data = pd.concat([alldata[other_cols],alldata[num_cols],alldata_cat],axis=1)
범주형 변수의 특성을 나열합니다.
오, 쌓여 있지 않은가, 자신. 라는 수수께끼의 대응. 그럼 이하의 결과만 정리해 출력해 보고 싶습니다. object형의 데이터형의 녀석만, index를 일람으로 가져오고 있군요.
cat_cols = alldata.dtypes[alldata.dtypes=='object'].index.tolist()
수치 변수의 특성을 나열합니다.
num_cols = alldata.dtypes[alldata.dtypes!='object'].index.tolist()
이것은 카테고리 변수의 특징량을 리스트화하는 것과 같기 때문에 할애.
데이터 분할 및 제출 시 필요한 열 목록
other_cols = ['Id','WhatIsData']
이것은 보아, 제2회 때에 추가한 컬럼을 배열에 격납하고 있군요. 분명히이 다음 단계에서 불필요한 요소를 목록에서 제거하는 데 사용하는 모습.
불필요한 요소를 목록에서 제거
필요없는 요소를 목록에서 삭제하는 것 같습니다.
cat_cols
안에는 WhatIsData라는 항목이 있었음을 이전 출력 결과에서도 확인할 수 있습니다.cat_cols.remove('WhatIsData') #学習データ・テストデータ区別フラグ除去
num_cols.remove('Id') #Id削除
범주형 변수 더미화
alldata_cat = pd.get_dummies(alldata[cat_cols])
드물게 소감. 함수에 맞추는 것만으로 마음대로 전부 해 준다니 편리한 녀석이다…python의 이런 곳 좋아.
alldata_cat = pd.get_dummies(alldata[cat_cols])
의 출력 결과. 대단해, 정말로 바뀌고 있다.데이터 통합
all_data = pd.concat([alldata[other_cols],alldata[num_cols],alldata_cat],axis=1)
이것은 보지 못했습니다. [alldata[other_cols], alldata[num_cols], alldata_cat을 concat으로 합체. (보았던대로라든지 위대하게 가버릴 때까지 되었습니다)
끝.
이번은 템포 잘 진행했나. 존외 읽기 풀기에 시간이 걸리지 않게 되어 있는 모습. 꾸준히 다가오고 있는 느낌입니까. 계속 정진합니다.
데이터의 성형이 끝났으므로 다음부터 드디어 분석이군요. 기대하네요.
Reference
이 문제에 관하여(【초보자용 핸즈온】kaggle의 「주택 가격을 예측한다」를 1행씩 읽는다(제5회:카테고리카르변수의 더미화)), 우리는 이곳에서 더 많은 자료를 발견하고 링크를 클릭하여 보았다
https://qiita.com/WdknWdkn/items/17aa03188f728b6b563e
텍스트를 자유롭게 공유하거나 복사할 수 있습니다.하지만 이 문서의 URL은 참조 URL로 남겨 두십시오.
우수한 개발자 콘텐츠 발견에 전념
(Collection and Share based on the CC Protocol.)
Reference
이 문제에 관하여(【초보자용 핸즈온】kaggle의 「주택 가격을 예측한다」를 1행씩 읽는다(제5회:카테고리카르변수의 더미화)), 우리는 이곳에서 더 많은 자료를 발견하고 링크를 클릭하여 보았다 https://qiita.com/WdknWdkn/items/17aa03188f728b6b563e텍스트를 자유롭게 공유하거나 복사할 수 있습니다.하지만 이 문서의 URL은 참조 URL로 남겨 두십시오.
우수한 개발자 콘텐츠 발견에 전념 (Collection and Share based on the CC Protocol.)