【초보자용 핸즈온】kaggle의 「주택 가격을 예측한다」를 1행씩 읽는다(제7회: 예측 모델의 구축의 준비)

제목


  • 제1회의 내용은 이쪽
  • 제2회의 내용은 이쪽
  • 제3회의 내용은 이쪽
  • 제4회의 내용은 이쪽
  • 제5회의 내용은 이쪽
  • 제6회의 내용은 이쪽

  • 유명한 제목인 kaggle의 「House Price」문제에 모두 도전해 나가게 된 핸즈온의 내용을 메모해 가는 기획의 제7회. 해설이라기보다는 메모의 정리이기도 합니다만, 어딘가의 누군가를 위해서 되면 다행입니다. 전회에서 준비가 끝나고, 드디어 해석 단계에.
  • 원래 제목 : htps //w w. 꺄gぇ. 코 m / c / 호세 - p 리세 s - d d
  • 참고로 한 기사: h tps : // / ぉ- 키요시. 코 m/2018/12/17/포 st-1003/

  • 오늘 작업



    예측 모델 구축


    # マージデータを学習データとテストデータに分割
    train_ = all_data[all_data['WhatIsData']=='Train'].drop(['WhatIsData','Id'], axis=1).reset_index(drop=True)
    test_ = all_data[all_data['WhatIsData']=='Test'].drop(['WhatIsData','SalePrice'], axis=1).reset_index(drop=True)
    # 学習データ内の分割
    train_x = train_.drop('SalePrice',axis=1)
    train_y = np.log(train_['SalePrice'])
    # テストデータ内の分割
    test_id = test_['Id']
    test_data = test_.drop('Id',axis=1)
    

    병합 데이터를 학습 데이터와 테스트 데이터로 분할



    train쪽으로 확인합니다.
    all_data[all_data['WhatIsData']=='Train'].drop(['WhatIsData','Id'], axis=1).reset_index(drop=True)
    

    우선은 all_data[all_data['WhatIsData']=='Train'] 의 내용을 확인. all_data내의 Train만을 가져오는 것입니다.

    all_data[all_data['WhatIsData']=='Train'].drop(['WhatIsData','Id'], axis=1) 의 내용 확인 WhatIsData, Id 를 열에서 떨어뜨린다.

    all_data[all_data['WhatIsData']=='Train'].drop(['WhatIsData','Id'], axis=1) 의 내용 확인. index를 리셋트(캡쳐 화상이라고 일체 바뀌어 보이지 않아…


    (덧붙여서, train도 test도, 이전 배열을 일부러 만들었던 것 같다.

    학습 데이터 내 분할


    train_x = train_.drop('SalePrice',axis=1)
    train_y = np.log(train_['SalePrice'])
    
    train_x = train_.drop('SalePrice',axis=1) 그리고 SalePrice 이외의 열을 설명 변수로 하는 것이군요.
    train_y = np.log(train_['SalePrice']) 에서 목적 변수를 준비. (이전 로그 변환을 잊지 마세요)

    테스트 데이터에서 분할


    test_id = test_['Id']
    test_data = test_.drop('Id',axis=1)
    

    더 이상 본 채로? . . 유석에 여기는 test_id, test_data 각각의 확인은 생략합니다.

    예측 모델 구축



    에, 들어가려고 했는데, 어쩔 수 없는 모습이 되어 왔으므로, 들어가지 않고 준비에 철저합니다. 주로 단어 조사.

    StandardScaler() # 스케일링


  • 스케일 변환에 대해: htps // //아이지네. 아이 / p 레이 p로 세신 g0614 /
  • Scikit-learn의 스케일 변환 클래스에 대해 : h tps : // / l ゔ ぇ - py 응. 하테나 bぉg. jp / 엔트리 / s shiki t ぇ r-s 또는 ぇ- ゔ r shion

  • [0.001, 0.01, 0.1, 1.0, 10.0,100.0,1000.0] # 파라미터 그리드


  • 그리드 검색 정보 : https://www.case-k.jp/entry/2018/09/03/211016#:~:text=%E3%82%B0%E3%83%AA%E3%83%83%E3%83% 89%E3%82%B5%E3%83%BC%E3%83%81%E3%81%A8%E3%81%AF%E3%80%81%E3%83%A2%E3%83%87% E3%83%AB,%E3%82%92%E6%8E%A2%E7%B4%A2%E3%81%99%E3%82%8B%E6%96%B9%E6%B3%95%E3 %81%A7%E3%81%99%E3%80%82

  • make_pipeline(scaler, ls) #파이프라인 생성


  • 파이프라인 정보: htps : // 코 m / 코코 / / ms / b4f4159b77c0 A87E978f

  • 끝.



    이 숙제를 우선은 전부 읽어들이는 곳으로부터인가.
    생각했다고 말해도 될까요? 「슬슬 종반」이라고 생각했는데, 여기까지 했던 것 전부 전처리였다고 한다.

    좋은 웹페이지 즐겨찾기