결정 트리 분석

분류 트리의 판별(목표 변수는 분류 변수의 판별 문제)을 사용하여 먼저 데이터() 함수를 통해 데이터를 읽고str() 함수를 통해 구조를 확인합니다.
> data(Titanic)
> str(Titanic)
> Titanic[,1,2,]
\\ 2 1 , 3 2 

그리고 모자이크 그림을 그려서 교차 통계 결과를 가시화한다.
> mosaicplot(Titanic[,1,2,],color=T)

rpart 패키지를 사용하여 결정 트리 분석을 할 수 있습니다.이 패키지는 데이터 상자 형식을 대상으로 하기 때문에 epitools 패키지의expand를 사용합니다.테이블 () 함수는 방금 통계된 타이타닉 호 데이터를 데이터 상자로 변환한 다음 분석합니다.
> install.packages("epitools")
> library(epitools)
> Titanic.df  library(rpart)
> Titanic.tree  summary(Titanic.tree)
\\ (n), (nsplit) (CP), , , , 。

우리는 파티키 패키지로 시각화를 진행했다.단, 미리 as를 통과해야 합니다.party () 함수는 방금 결과를 party 형식으로 변환합니다.
> install.package("partykit")
> library(partykit)
> plot(as.party(Titanic.tree))
\\ plotcp() :
> plotcp(Titanic.tree)
\\ , summary() :
> Titanic.tree2  summary(Titanic.tree2)
> plot(as.party(Titanic.tree2))

회귀 트리의 예측을 사용합니다.(목표 변수가 수치 변수일 때의 예측 문제) 데이터를 먼저 읽습니다.
> library(ggplot2)
> data(diamonds)

데이터량이 많기 때문에subset() 함수를 통해 범위를 좁힌 후 데이터를 보아야 합니다.x% in% c (a, b, c) 형식으로 썼을 때, x가 a, b, c 중 하나라면 TRUE를 되돌려주고 FALSE를 되돌려줍니다.
> diamonds2 = 1.5 & carat < 2 &
+						clarity %in% c("I1","SI2"))
>boxplot(diamonds2$price)
\\ 

다음은 rpart () 함수를 사용하여 카트,cut,color,clarity 네 가지 측면에서 price를 설명합니다.목표 변수는 수치 변수이기 때문에method 매개 변수를 anova로 지정합니다.
> str(diamonds)
> diamonds.tree  plot(as.party(diamonds.tree))

여기와 아까의 차이는 해석 변수가 수치 변수 카트를 포함하기 때문에 이 변수를 기준값으로 분류하는 것이다.또한 목표 변수가 수치 변수이기 때문에 분류 트리에서 띠 모양으로 분류 변수를 표시하는 비례와 달리 상자형도를 사용하여 수치 변수의 분포를 나타낸다.마지막으로 예측을 집행한다.원 데이터 5만 개를 훈련집으로 하고 나머지는 테스트 데이터로 한다.계산 결과에 따라predict() 함수로 테스트 데이터를 예측합니다.여기에 헤드 () 함수를 사용하면 앞줄만 표시합니다.
> train  test  diamonds.tree2  p  head(p)

좋은 웹페이지 즐겨찾기