「R에 의한 기계 학습」의 공부 이력(3)
R에 의한 기계 학습
(소프트웨어 품질 기술자를 위한) 데이터 분석 연구회에서 서적 『R에 의한 기계 학습(Machine Learning with R)』을 사용하여 기계 학습을 배운다.
htps //w w. 아마존. 이. jp/dp/4798145114/
제5장 분할 통치 -결정 트리와 분류 규칙을 사용한 분류-
의문점
의문점
@sampo 씨가 차이를 정리해 주었다.
전제 지식
데이터 무작위 추출 방법
데이터를 훈련 데이터와 테스트 데이터로 나눕니다. 그 때 무작위 추출을 사용할 수 있습니다.
R에서는 sample() 함수와 set.seed() 함수를 사용할 수 있다.
prop.table() 함수로 밸런스 좋게 데이터 추출할 수 있었는지 확인할 수 있다.
오류율 계산 방법
아래 모델의 성능 평가 결과의 「actual default: yes 또한 predicted default: no」와 「actual default: no 또한 predicted default: yes」의 비율을 더한 것을 오류율이라고 한다. 이하의 경우, 0.3=0.2+0.1이다.
| predicted default
actual default | no | yes | Row Total |
---------------|-----------|-----------|-----------|
no | 55 | 10 | 65 |
| 0.550 | 0.100 | |
---------------|-----------|-----------|-----------|
yes | 20 | 15 | 35 |
| 0.200 | 0.150 | |
---------------|-----------|-----------|-----------|
Column Total | 75 | 25 | 100 |
---------------|-----------|-----------|-----------|
결정 나무
책대로 실시하면 결과를 얻을 수 있다.
오류 비용을 지정하면 좋은 느낌의 결과를 얻을 수 있습니다.
발생하지 않으려는 판단 오류를 방지하기 위해 오류 비용을 지정합니다.
분류 규칙
책대로 실시하면 결과를 얻을 수 있다.
덤
rpart를 사용해보기 쉬운 결정 나무를 만든다
htps //w w. 마르케 짱. 이 m / r로 시시 온 - t
https://qiita.com/nkjm/items/e751e49c7d2c619cbeab#결정 트리로 데이터 분석
> install.packages("rpart")
> install.packages("rpart.plot")
> credit <- read.csv("credit.csv")
> credit_train <- credit[-17]
> model_credit <- rpart::rpart(default ~ ., credit)
> rpart.plot::rpart.plot(model_credit, extra = 1, type = 2)
로지스틱 회귀 분석을 사용하면
설명 변수를 연속값의 데이터로 변환함으로써 로지스틱 회귀분석 + 순차선택법(스텝와이즈법)을 사용하여 결정목과 유사한 모델을 작성할 수 있을 가능성도 있다.
연습시 문제
> library(C50)
Warning: パッケージ 'C50' はバージョン 3.6.1 の R の下で造られました
Reference
이 문제에 관하여(「R에 의한 기계 학습」의 공부 이력(3)), 우리는 이곳에서 더 많은 자료를 발견하고 링크를 클릭하여 보았다 https://qiita.com/kazuo_reve/items/609396b80384095f594f텍스트를 자유롭게 공유하거나 복사할 수 있습니다.하지만 이 문서의 URL은 참조 URL로 남겨 두십시오.
우수한 개발자 콘텐츠 발견에 전념 (Collection and Share based on the CC Protocol.)