Kaggle ~ 주택 분석 ③ ~ Part1
1. 소개
주택 분석도 있어 이것 3번째가 되었습니다.
전회까지 스코어가 0.17 부근에서 모델을 바꾸어도 더 이상 성장하지 않는구나 같은 느낌.
이번은 CRISP-DM을 이용한 표준 프로세스로 실시.
※Shearer 등이 제창하고 있는 CRISP-DM(CRoss Industry Standard Process for Data Mining)
데이터 분석의 프로세스에는 표준 프로세스로서 CRISP-DM과 CRIISP-DM보다 데이터 분석 부분에 포커스하고 있는 KDD가 있습니다(이번에는 KDD의 설명은 생략)
CRISP-DM의 프로세스는 ①비즈니스 이해→②데이터 이해→③데이터 준비→④모델링→⑤평가→⑥적용이라는 식으로 진행된다.
그림 1CRISP-DM
라고 하는 흐름으로 진행해, 게다가 이들에 대해 자신이 생각한 것을 조사한 것을 소개합니다.
Part1이라고 하는 것으로 복수회에 걸쳐 소개해 갑니다.
2. 비즈니스 이해
이 대회에서는 주택 가격을 예상하는 것이 과제입니다.
그래서 주택의 가격이 어떤 요소로 좌우되는지 상상해 보았다.
====================이하 상상 내용====================
일반적으로 "장소"도시와 역에 가까운 교통편이 좋은 고급 주택
"집의 크기"부지 면적, 층수, 건물의 넓이
"부속"풀 첨부, 테니스 코트 포함 등
"신축"인가"중고"는 상당히 중요한 생각이 든다(축 몇 년이라고 하는 것이 중요?)
"품질"이라는 것은 소재 등도 중요한 요소라고 생각합니다.
꼽으면 딱이 없지만 예측하는데 있어서 매우 중요하다고 생각합니다.
3. 데이터 이해
드디어 kaggle의 내용을 살펴 보겠습니다.
# 1-1. データを読み込む
df_train = pd.read_csv('/kaggle/input/house-prices-advanced-regression-techniques/train.csv')
df_test = pd.read_csv('/kaggle/input/house-prices-advanced-regression-techniques/test.csv')
df_train.head()
출력 결과
Id
MSSubClass
MSZoning
LotFrontage
LotArea
거리
Alley
LotShape
LandContour
유틸리티
...
PoolArea
PoolQC
펜스
MiscFeature
MiscVal
MoSold
YrSold
SaleType
SaleCondition
SalePrice
0
1
60
RL
65.0
8450
Pave
NaN
Reg
Lvl
AllPub
...
0
NaN
NaN
NaN
0
2
2008
WD
Normal
208500
1
2
20
RL
80.0
9600
Pave
NaN
Reg
Lvl
AllPub
...
0
NaN
NaN
NaN
0
5
2007
WD
Normal
181500
2
3
60
RL
68.0
11250
Pave
NaN
IR1
Lvl
AllPub
...
0
NaN
NaN
NaN
0
9
2008
WD
Normal
223500
3
4
70
RL
60.0
9550
Pave
NaN
IR1
Lvl
AllPub
...
0
NaN
NaN
NaN
0
2
2006
WD
Abnorml
140000
4
5
60
RL
84.0
14260
Pave
NaN
IR1
Lvl
AllPub
...
0
NaN
NaN
NaN
0
12
2008
WD
Normal
250000
# 1-2. データ構造の確認
print(df_train.shape)
print(df_test.shape)
df_train.columns
출력 결과
(1460, 81)
(1459, 80)
Index(['Id', 'MSSubClass', 'MSZoning', 'LotFrontage', 'LotArea', 'Street',
'Alley', 'LotShape', 'LandContour', 'Utilities', 'LotConfig',
'LandSlope', 'Neighborhood', 'Condition1', 'Condition2', 'BldgType',
'HouseStyle', 'OverallQual', 'OverallCond', 'YearBuilt', 'YearRemodAdd',
'RoofStyle', 'RoofMatl', 'Exterior1st', 'Exterior2nd', 'MasVnrType',
'MasVnrArea', 'ExterQual', 'ExterCond', 'Foundation', 'BsmtQual',
'BsmtCond', 'BsmtExposure', 'BsmtFinType1', 'BsmtFinSF1',
'BsmtFinType2', 'BsmtFinSF2', 'BsmtUnfSF', 'TotalBsmtSF', 'Heating',
'HeatingQC', 'CentralAir', 'Electrical', '1stFlrSF', '2ndFlrSF',
'LowQualFinSF', 'GrLivArea', 'BsmtFullBath', 'BsmtHalfBath', 'FullBath',
'HalfBath', 'BedroomAbvGr', 'KitchenAbvGr', 'KitchenQual',
'TotRmsAbvGrd', 'Functional', 'Fireplaces', 'FireplaceQu', 'GarageType',
'GarageYrBlt', 'GarageFinish', 'GarageCars', 'GarageArea', 'GarageQual',
'GarageCond', 'PavedDrive', 'WoodDeckSF', 'OpenPorchSF',
'EnclosedPorch', '3SsnPorch', 'ScreenPorch', 'PoolArea', 'PoolQC',
'Fence', 'MiscFeature', 'MiscVal', 'MoSold', 'YrSold', 'SaleType',
'SaleCondition', 'SalePrice'],
dtype='object')
설명 변수가 80개나 있다.
이번은 스페이스의 관계로 이상으로 한다.
다음 번에는 드디어 데이터 전처리를 실제로 수행합니다.
Reference
이 문제에 관하여(Kaggle ~ 주택 분석 ③ ~ Part1), 우리는 이곳에서 더 많은 자료를 발견하고 링크를 클릭하여 보았다
https://qiita.com/ProgramWataru/items/223f889d3c585cad8cc9
텍스트를 자유롭게 공유하거나 복사할 수 있습니다.하지만 이 문서의 URL은 참조 URL로 남겨 두십시오.
우수한 개발자 콘텐츠 발견에 전념
(Collection and Share based on the CC Protocol.)
이 대회에서는 주택 가격을 예상하는 것이 과제입니다.
그래서 주택의 가격이 어떤 요소로 좌우되는지 상상해 보았다.
====================이하 상상 내용====================
일반적으로 "장소"도시와 역에 가까운 교통편이 좋은 고급 주택
"집의 크기"부지 면적, 층수, 건물의 넓이
"부속"풀 첨부, 테니스 코트 포함 등
"신축"인가"중고"는 상당히 중요한 생각이 든다(축 몇 년이라고 하는 것이 중요?)
"품질"이라는 것은 소재 등도 중요한 요소라고 생각합니다.
꼽으면 딱이 없지만 예측하는데 있어서 매우 중요하다고 생각합니다.
3. 데이터 이해
드디어 kaggle의 내용을 살펴 보겠습니다.
# 1-1. データを読み込む
df_train = pd.read_csv('/kaggle/input/house-prices-advanced-regression-techniques/train.csv')
df_test = pd.read_csv('/kaggle/input/house-prices-advanced-regression-techniques/test.csv')
df_train.head()
출력 결과
Id
MSSubClass
MSZoning
LotFrontage
LotArea
거리
Alley
LotShape
LandContour
유틸리티
...
PoolArea
PoolQC
펜스
MiscFeature
MiscVal
MoSold
YrSold
SaleType
SaleCondition
SalePrice
0
1
60
RL
65.0
8450
Pave
NaN
Reg
Lvl
AllPub
...
0
NaN
NaN
NaN
0
2
2008
WD
Normal
208500
1
2
20
RL
80.0
9600
Pave
NaN
Reg
Lvl
AllPub
...
0
NaN
NaN
NaN
0
5
2007
WD
Normal
181500
2
3
60
RL
68.0
11250
Pave
NaN
IR1
Lvl
AllPub
...
0
NaN
NaN
NaN
0
9
2008
WD
Normal
223500
3
4
70
RL
60.0
9550
Pave
NaN
IR1
Lvl
AllPub
...
0
NaN
NaN
NaN
0
2
2006
WD
Abnorml
140000
4
5
60
RL
84.0
14260
Pave
NaN
IR1
Lvl
AllPub
...
0
NaN
NaN
NaN
0
12
2008
WD
Normal
250000
# 1-2. データ構造の確認
print(df_train.shape)
print(df_test.shape)
df_train.columns
출력 결과
(1460, 81)
(1459, 80)
Index(['Id', 'MSSubClass', 'MSZoning', 'LotFrontage', 'LotArea', 'Street',
'Alley', 'LotShape', 'LandContour', 'Utilities', 'LotConfig',
'LandSlope', 'Neighborhood', 'Condition1', 'Condition2', 'BldgType',
'HouseStyle', 'OverallQual', 'OverallCond', 'YearBuilt', 'YearRemodAdd',
'RoofStyle', 'RoofMatl', 'Exterior1st', 'Exterior2nd', 'MasVnrType',
'MasVnrArea', 'ExterQual', 'ExterCond', 'Foundation', 'BsmtQual',
'BsmtCond', 'BsmtExposure', 'BsmtFinType1', 'BsmtFinSF1',
'BsmtFinType2', 'BsmtFinSF2', 'BsmtUnfSF', 'TotalBsmtSF', 'Heating',
'HeatingQC', 'CentralAir', 'Electrical', '1stFlrSF', '2ndFlrSF',
'LowQualFinSF', 'GrLivArea', 'BsmtFullBath', 'BsmtHalfBath', 'FullBath',
'HalfBath', 'BedroomAbvGr', 'KitchenAbvGr', 'KitchenQual',
'TotRmsAbvGrd', 'Functional', 'Fireplaces', 'FireplaceQu', 'GarageType',
'GarageYrBlt', 'GarageFinish', 'GarageCars', 'GarageArea', 'GarageQual',
'GarageCond', 'PavedDrive', 'WoodDeckSF', 'OpenPorchSF',
'EnclosedPorch', '3SsnPorch', 'ScreenPorch', 'PoolArea', 'PoolQC',
'Fence', 'MiscFeature', 'MiscVal', 'MoSold', 'YrSold', 'SaleType',
'SaleCondition', 'SalePrice'],
dtype='object')
설명 변수가 80개나 있다.
이번은 스페이스의 관계로 이상으로 한다.
다음 번에는 드디어 데이터 전처리를 실제로 수행합니다.
Reference
이 문제에 관하여(Kaggle ~ 주택 분석 ③ ~ Part1), 우리는 이곳에서 더 많은 자료를 발견하고 링크를 클릭하여 보았다
https://qiita.com/ProgramWataru/items/223f889d3c585cad8cc9
텍스트를 자유롭게 공유하거나 복사할 수 있습니다.하지만 이 문서의 URL은 참조 URL로 남겨 두십시오.
우수한 개발자 콘텐츠 발견에 전념
(Collection and Share based on the CC Protocol.)
# 1-1. データを読み込む
df_train = pd.read_csv('/kaggle/input/house-prices-advanced-regression-techniques/train.csv')
df_test = pd.read_csv('/kaggle/input/house-prices-advanced-regression-techniques/test.csv')
df_train.head()
# 1-2. データ構造の確認
print(df_train.shape)
print(df_test.shape)
df_train.columns
Reference
이 문제에 관하여(Kaggle ~ 주택 분석 ③ ~ Part1), 우리는 이곳에서 더 많은 자료를 발견하고 링크를 클릭하여 보았다 https://qiita.com/ProgramWataru/items/223f889d3c585cad8cc9텍스트를 자유롭게 공유하거나 복사할 수 있습니다.하지만 이 문서의 URL은 참조 URL로 남겨 두십시오.
우수한 개발자 콘텐츠 발견에 전념 (Collection and Share based on the CC Protocol.)