【초보자용 핸즈온】kaggle의 「주택 가격을 예측한다」를 1행씩 읽는다(제7회: 예측 모델의 구축의 준비)
제목
유명한 제목인 kaggle의 「House Price」문제에 모두 도전해 나가게 된 핸즈온의 내용을 메모해 가는 기획의 제7회. 해설이라기보다는 메모의 정리이기도 합니다만, 어딘가의 누군가를 위해서 되면 다행입니다. 전회에서 준비가 끝나고, 드디어 해석 단계에.
오늘 작업
예측 모델 구축
# マージデータを学習データとテストデータに分割
train_ = all_data[all_data['WhatIsData']=='Train'].drop(['WhatIsData','Id'], axis=1).reset_index(drop=True)
test_ = all_data[all_data['WhatIsData']=='Test'].drop(['WhatIsData','SalePrice'], axis=1).reset_index(drop=True)
# 学習データ内の分割
train_x = train_.drop('SalePrice',axis=1)
train_y = np.log(train_['SalePrice'])
# テストデータ内の分割
test_id = test_['Id']
test_data = test_.drop('Id',axis=1)
병합 데이터를 학습 데이터와 테스트 데이터로 분할
train쪽으로 확인합니다.
all_data[all_data['WhatIsData']=='Train'].drop(['WhatIsData','Id'], axis=1).reset_index(drop=True)
우선은 all_data[all_data['WhatIsData']=='Train']
의 내용을 확인. all_data내의 Train만을 가져오는 것입니다.
all_data[all_data['WhatIsData']=='Train'].drop(['WhatIsData','Id'], axis=1)
의 내용 확인 WhatIsData, Id 를 열에서 떨어뜨린다.
all_data[all_data['WhatIsData']=='Train'].drop(['WhatIsData','Id'], axis=1)
의 내용 확인. index를 리셋트(캡쳐 화상이라고 일체 바뀌어 보이지 않아…
(덧붙여서, train도 test도, 이전 배열을 일부러 만들었던 것 같다.
학습 데이터 내 분할
train_x = train_.drop('SalePrice',axis=1)
train_y = np.log(train_['SalePrice'])
train_x = train_.drop('SalePrice',axis=1)
그리고 SalePrice 이외의 열을 설명 변수로 하는 것이군요.
train_y = np.log(train_['SalePrice'])
에서 목적 변수를 준비. (이전 로그 변환을 잊지 마세요)
테스트 데이터에서 분할
test_id = test_['Id']
test_data = test_.drop('Id',axis=1)
더 이상 본 채로? . . 유석에 여기는 test_id, test_data 각각의 확인은 생략합니다.
예측 모델 구축
에, 들어가려고 했는데, 어쩔 수 없는 모습이 되어 왔으므로, 들어가지 않고 준비에 철저합니다. 주로 단어 조사.
StandardScaler() # 스케일링
# マージデータを学習データとテストデータに分割
train_ = all_data[all_data['WhatIsData']=='Train'].drop(['WhatIsData','Id'], axis=1).reset_index(drop=True)
test_ = all_data[all_data['WhatIsData']=='Test'].drop(['WhatIsData','SalePrice'], axis=1).reset_index(drop=True)
# 学習データ内の分割
train_x = train_.drop('SalePrice',axis=1)
train_y = np.log(train_['SalePrice'])
# テストデータ内の分割
test_id = test_['Id']
test_data = test_.drop('Id',axis=1)
all_data[all_data['WhatIsData']=='Train'].drop(['WhatIsData','Id'], axis=1).reset_index(drop=True)
train_x = train_.drop('SalePrice',axis=1)
train_y = np.log(train_['SalePrice'])
test_id = test_['Id']
test_data = test_.drop('Id',axis=1)
[0.001, 0.01, 0.1, 1.0, 10.0,100.0,1000.0] # 파라미터 그리드
make_pipeline(scaler, ls) #파이프라인 생성
끝.
이 숙제를 우선은 전부 읽어들이는 곳으로부터인가.
생각했다고 말해도 될까요? 「슬슬 종반」이라고 생각했는데, 여기까지 했던 것 전부 전처리였다고 한다.
Reference
이 문제에 관하여(【초보자용 핸즈온】kaggle의 「주택 가격을 예측한다」를 1행씩 읽는다(제7회: 예측 모델의 구축의 준비)), 우리는 이곳에서 더 많은 자료를 발견하고 링크를 클릭하여 보았다
https://qiita.com/WdknWdkn/items/a01b2cf4f06c9e572fe2
텍스트를 자유롭게 공유하거나 복사할 수 있습니다.하지만 이 문서의 URL은 참조 URL로 남겨 두십시오.
우수한 개발자 콘텐츠 발견에 전념
(Collection and Share based on the CC Protocol.)
Reference
이 문제에 관하여(【초보자용 핸즈온】kaggle의 「주택 가격을 예측한다」를 1행씩 읽는다(제7회: 예측 모델의 구축의 준비)), 우리는 이곳에서 더 많은 자료를 발견하고 링크를 클릭하여 보았다 https://qiita.com/WdknWdkn/items/a01b2cf4f06c9e572fe2텍스트를 자유롭게 공유하거나 복사할 수 있습니다.하지만 이 문서의 URL은 참조 URL로 남겨 두십시오.
우수한 개발자 콘텐츠 발견에 전념 (Collection and Share based on the CC Protocol.)