【초보자용 핸즈온】kaggle의 「주택 가격을 예측한다」를 1행씩 읽는다(제5회:카테고리카르변수의 더미화)

제목


  • 제1회의 내용은 이쪽
  • 제2회의 내용은 이쪽
  • 제3회의 내용은 이쪽
  • 제4회의 내용은 이쪽

  • 유명한 제목인 kaggle의 「House Price」문제에 모두 도전해 가게 된 핸즈온의 내용을 메모해 가는 기획의 제5회. 해설이라기보다는 메모의 정리이기도 합니다만, 어딘가의 누군가를 위해서 되면 다행입니다. 이제 끝이 보였다고 생각하고 싶다.
  • 원래 제목 : htps //w w. 꺄gぇ. 코 m / c / 호세 - p 리세 s - d d
  • 참고로 한 기사: h tps : // / ぉ- 키요시. 코 m/2018/12/17/포 st-1003/

  • 오늘 작업



    범주형 변수 더미화



    문자열이라든가를 수치로 치환을 해 가는 느낌입니까.
  • 참고: h tps : // 마르 케지네. jp / arc c / 싶은 l / 20790
  • # カテゴリカル変数の特徴量をリスト化
    cat_cols = alldata.dtypes[alldata.dtypes=='object'].index.tolist()
    # 数値変数の特徴量をリスト化
    num_cols = alldata.dtypes[alldata.dtypes!='object'].index.tolist()
    # データ分割および提出時に必要なカラムをリスト化
    other_cols = ['Id','WhatIsData']
    # 余計な要素をリストから削除
    cat_cols.remove('WhatIsData') #学習データ・テストデータ区別フラグ除去
    num_cols.remove('Id') #Id削除
    # カテゴリカル変数をダミー化
    alldata_cat = pd.get_dummies(alldata[cat_cols])
    # データ統合
    all_data = pd.concat([alldata[other_cols],alldata[num_cols],alldata_cat],axis=1)
    

    범주형 변수의 특성을 나열합니다.


  • .dtypes: 이것이 제3회에서 했습니다 데이터형을 검출하는 녀석이다.
  • .index: 이것은 제4회에서 했습니다. 해당하는 배열의 index만 추출해 주는 녀석.
  • .tolist():이것도 제4회 나왔습니다. index로 추출된 녀석을 배열로 해주는 녀석.

  • 오, 쌓여 있지 않은가, 자신. 라는 수수께끼의 대응. 그럼 이하의 결과만 정리해 출력해 보고 싶습니다. object형의 데이터형의 녀석만, index를 일람으로 가져오고 있군요.
    cat_cols = alldata.dtypes[alldata.dtypes=='object'].index.tolist()

    수치 변수의 특성을 나열합니다.


    num_cols = alldata.dtypes[alldata.dtypes!='object'].index.tolist()
    이것은 카테고리 변수의 특징량을 리스트화하는 것과 같기 때문에 할애.

    데이터 분할 및 제출 시 필요한 열 목록


    other_cols = ['Id','WhatIsData']
    이것은 보아, 제2회 때에 추가한 컬럼을 배열에 격납하고 있군요. 분명히이 다음 단계에서 불필요한 요소를 목록에서 제거하는 데 사용하는 모습.

    불필요한 요소를 목록에서 제거



    필요없는 요소를 목록에서 삭제하는 것 같습니다. cat_cols 안에는 WhatIsData라는 항목이 있었음을 이전 출력 결과에서도 확인할 수 있습니다.
    cat_cols.remove('WhatIsData') #学習データ・テストデータ区別フラグ除去num_cols.remove('Id') #Id削除
  • .remove() : 사용법적으로 보았습니다. 해당 항목을 삭제합니다.
  • .remove() 참고: htps //w w. 그럼 ㄔ d리ゔ ぇ. jp / py ton / st / e x8. HTML

  • 범주형 변수 더미화


    alldata_cat = pd.get_dummies(alldata[cat_cols])
  • .get_dummies 참고 : h tps : //에서. 응 kmk. 메 / py 텐 - 팬더 s 게 t 가득 s /

  • 드물게 소감. 함수에 맞추는 것만으로 마음대로 전부 해 준다니 편리한 녀석이다…python의 이런 곳 좋아.
    alldata_cat = pd.get_dummies(alldata[cat_cols])의 출력 결과. 대단해, 정말로 바뀌고 있다.


    데이터 통합


    all_data = pd.concat([alldata[other_cols],alldata[num_cols],alldata_cat],axis=1)
    이것은 보지 못했습니다. [alldata[other_cols], alldata[num_cols], alldata_cat을 concat으로 합체. (보았던대로라든지 위대하게 가버릴 때까지 되었습니다)

    끝.



    이번은 템포 잘 진행했나. 존외 읽기 풀기에 시간이 걸리지 않게 되어 있는 모습. 꾸준히 다가오고 있는 느낌입니까. 계속 정진합니다.
    데이터의 성형이 끝났으므로 다음부터 드디어 분석이군요. 기대하네요.

    좋은 웹페이지 즐겨찾기