R: Kaggle Titanic

R에서 Kaggle에 Submit 해 보았습니다.
거의 다음 기사와 동일합니다.
【초보자용】kaggle의 타이타닉호 승객의 생존 예측 모델을 R로 바삭바삭하게 만든다
그러나 Score는 달랐습니다. 0.70334였습니다.


In [1]:
library('randomForest') 

list.files(path = "../input/titanic")

train_path <- '../input/titanic/train.csv'
test_path <- '../input/titanic/test.csv'
train <- read.csv(train_path, stringsAsFactors = F )
test  <- read.csv(test_path, stringsAsFactors = F )
#

In [2]:
# 乱数種を設定することで、毎回、同じモデルが生成される
set.seed(754)

# Survivedが目的変数(知りたい結果)で、~以降が説明変数
# 与えられた全ての変数を利用するわけではない
rf_model <- randomForest(factor(Survived) ~ Pclass + SibSp + Parch + Parch, data = train)

# OOB estimate of  error rateが30.75%、これは
print(rf_model)

In [3]:
# 作成したモデルを利用して、testファイルのPclass + SibSp + Parch + ParchからSurvivedを計算する
prediction <- predict(rf_model, test)

# 提出用にPassengerIdと予想したpredictionの列を持つdata.frameを作成する
solution <- data.frame(PassengerID = test$PassengerId, Survived = prediction)

# testの結果をcsvファイルに書き込む
write.csv(solution, file = 'r_titanic_aug2701.csv', row.names = F)

좋은 웹페이지 즐겨찾기