【초보자용 핸즈온】kaggle의 「주택 가격을 예측한다」를 1행씩 읽는다(제5회:카테고리카르변수의 더미화)

제목

유명한 제목인 kaggle의 「House Price」문제에 모두 도전해 가게 된 핸즈온의 내용을 메모해 가는 기획의 제5회. 해설이라기보다는 메모의 정리이기도 합니다만, 어딘가의 누군가를 위해서 되면 다행입니다. 이제 끝이 보였다고 생각하고 싶다.

원래 제목 : htps //w w. 꺄gぇ. 코 m / c / 호세 - p 리세 s - d d

참고로 한 기사: h tps : // / ぉ- 키요시. 코 m/2018/12/17/포 st-1003/

오늘 작업

범주형 변수 더미화

문자열이라든가를 수치로 치환을 해 가는 느낌입니까.

참고: h tps : // 마르 케지네. jp / arc c / 싶은 l / 20790

# カテゴリカル変数の特徴量をリスト化
cat_cols = alldata.dtypes[alldata.dtypes=='object'].index.tolist()
# 数値変数の特徴量をリスト化
num_cols = alldata.dtypes[alldata.dtypes!='object'].index.tolist()
# データ分割および提出時に必要なカラムをリスト化
other_cols = ['Id','WhatIsData']
# 余計な要素をリストから削除
cat_cols.remove('WhatIsData') #学習データ・テストデータ区別フラグ除去
num_cols.remove('Id') #Id削除
# カテゴリカル変数をダミー化
alldata_cat = pd.get_dummies(alldata[cat_cols])
# データ統合
all_data = pd.concat([alldata[other_cols],alldata[num_cols],alldata_cat],axis=1)

범주형 변수의 특성을 나열합니다.

.dtypes: 이것이 제3회에서 했습니다 데이터형을 검출하는 녀석이다.

.index: 이것은 제4회에서 했습니다. 해당하는 배열의 index만 추출해 주는 녀석.

.tolist():이것도 제4회 나왔습니다. index로 추출된 녀석을 배열로 해주는 녀석.

오, 쌓여 있지 않은가, 자신. 라는 수수께끼의 대응. 그럼 이하의 결과만 정리해 출력해 보고 싶습니다. object형의 데이터형의 녀석만, index를 일람으로 가져오고 있군요.
cat_cols = alldata.dtypes[alldata.dtypes=='object'].index.tolist()

수치 변수의 특성을 나열합니다.

num_cols = alldata.dtypes[alldata.dtypes!='object'].index.tolist()
이것은 카테고리 변수의 특징량을 리스트화하는 것과 같기 때문에 할애.

데이터 분할 및 제출 시 필요한 열 목록

other_cols = ['Id','WhatIsData']
이것은 보아, 제2회 때에 추가한 컬럼을 배열에 격납하고 있군요. 분명히이 다음 단계에서 불필요한 요소를 목록에서 제거하는 데 사용하는 모습.

불필요한 요소를 목록에서 제거

필요없는 요소를 목록에서 삭제하는 것 같습니다. cat_cols 안에는 WhatIsData라는 항목이 있었음을 이전 출력 결과에서도 확인할 수 있습니다.
cat_cols.remove('WhatIsData') #学習データ・テストデータ区別フラグ除去num_cols.remove('Id') #Id削除

.remove() : 사용법적으로 보았습니다. 해당 항목을 삭제합니다.

.remove() 참고: htps //w w. 그럼 ㄔ d리ゔぇ. jp / py ton / st / e x8. HTML

범주형 변수 더미화

alldata_cat = pd.get_dummies(alldata[cat_cols])

.get_dummies 참고 : h tps : //에서. 응 kmk. 메 / py 텐 - 팬더 s 게 t 가득 s /

드물게 소감. 함수에 맞추는 것만으로 마음대로 전부 해 준다니 편리한 녀석이다…python의 이런 곳 좋아.
alldata_cat = pd.get_dummies(alldata[cat_cols])의 출력 결과. 대단해, 정말로 바뀌고 있다.

데이터 통합

all_data = pd.concat([alldata[other_cols],alldata[num_cols],alldata_cat],axis=1)
이것은 보지 못했습니다. [alldata[other_cols], alldata[num_cols], alldata_cat을 concat으로 합체. (보았던대로라든지 위대하게 가버릴 때까지 되었습니다)

끝.

이번은 템포 잘 진행했나. 존외 읽기 풀기에 시간이 걸리지 않게 되어 있는 모습. 꾸준히 다가오고 있는 느낌입니까. 계속 정진합니다.
데이터의 성형이 끝났으므로 다음부터 드디어 분석이군요. 기대하네요.

Reference

이 문제에 관하여(【초보자용 핸즈온】kaggle의 「주택 가격을 예측한다」를 1행씩 읽는다(제5회:카테고리카르변수의 더미화)), 우리는 이곳에서 더 많은 자료를 발견하고 링크를 클릭하여 보았다 https://qiita.com/WdknWdkn/items/17aa03188f728b6b563e

텍스트를 자유롭게 공유하거나 복사할 수 있습니다.하지만 이 문서의 URL은 참조 URL로 남겨 두십시오.

우수한 개발자 콘텐츠 발견에 전념 (Collection and Share based on the CC Protocol.)

좋은 웹페이지 즐겨찾기

개발자 우수 사이트 수집

개발자가 알아야 할 필수 사이트 100선 추천 우리는 당신을 위해 100개의 자주 사용하는 개발자 학습 사이트를 정리했습니다