「R에 의한 기계 학습」의 공부 이력(3)

4116 단어 RRStudio기계 학습

R에 의한 기계 학습



(소프트웨어 품질 기술자를 위한) 데이터 분석 연구회에서 서적 『R에 의한 기계 학습(Machine Learning with R)』을 사용하여 기계 학습을 배운다.
htps //w w. 아마존. 이. jp/dp/4798145114/

제5장 분할 통치 -결정 트리와 분류 규칙을 사용한 분류-



의문점


  • 균일성이란 무엇?
  • 순수성과 유사한 의미.

  • 엔트로피란 무엇인가?
  • 순수성(인스턴스 서브세트가 하나의 클래스에만 속하는 정도)을 측정하는 방법.
  • 엔트로피는 낮은 편이 좋다.

  • 최종적으로 요구하고 싶은 예측값은 목적 변수라고 하는?
  • 목적 변수라고 할 수 있다.
  • C5.0 알고리즘에서는 타겟 인자 벡터라고도합니다.

  • 학습 데이터에 편향이 있어도(yes인지 no인지를 요구할 때 학습 데이터가 yes의 데이터만이라도) 성능은 괜찮습니까?
  • 오류 비용이라는 기술로 보충할 수 있습니까?
  • 기계 학습 방법 모든 학습 데이터는 목표 변수의 균형이 좋은 것이 좋습니다. 알 수없는 데이터는 예측할 수 없습니다.

  • 부스팅
  • 결정 나무에서만 사용되는 단어가 아니라 기계 학습의 다른 기법에서도 사용되는 단어?
  • 복수의 결정 나무를 만들고, 복수의 결정 나무로부터 나온 결과를 가중치를 붙여 다수결하는 것 같은 느낌. 각 결정 나무의 신뢰도를 바탕으로 가중치를 부여하는 것 같습니다.

  • 홀드아웃 검증과 교차 검증?

  • @sampo 씨가 차이를 정리해 주었다.
  • htps : // k-me tcs. 네 tぃfy. 코 m/포 st/2019-09/cv/


  • 전제 지식



    데이터 무작위 추출 방법



    데이터를 훈련 데이터와 테스트 데이터로 나눕니다. 그 때 무작위 추출을 사용할 수 있습니다.
    R에서는 sample() 함수와 set.seed() 함수를 사용할 수 있다.
    prop.table() 함수로 밸런스 좋게 데이터 추출할 수 있었는지 확인할 수 있다.

    오류율 계산 방법



    아래 모델의 성능 평가 결과의 「actual default: yes 또한 predicted default: no」와 「actual default: no 또한 predicted default: yes」의 비율을 더한 것을 오류율이라고 한다. 이하의 경우, 0.3=0.2+0.1이다.
                   | predicted default 
    actual default |        no |       yes | Row Total | 
    ---------------|-----------|-----------|-----------|
                no |        55 |        10 |        65 | 
                   |     0.550 |     0.100 |           | 
    ---------------|-----------|-----------|-----------|
               yes |        20 |        15 |        35 | 
                   |     0.200 |     0.150 |           | 
    ---------------|-----------|-----------|-----------|
      Column Total |        75 |        25 |       100 | 
    ---------------|-----------|-----------|-----------|
    

    결정 나무



    책대로 실시하면 결과를 얻을 수 있다.
    오류 비용을 지정하면 좋은 느낌의 결과를 얻을 수 있습니다.
    발생하지 않으려는 판단 오류를 방지하기 위해 오류 비용을 지정합니다.

    분류 규칙



    책대로 실시하면 결과를 얻을 수 있다.



    rpart를 사용해보기 쉬운 결정 나무를 만든다



    htps //w w. 마르케 짱. 이 m / r로 시시 온 - t
    https://qiita.com/nkjm/items/e751e49c7d2c619cbeab#결정 트리로 데이터 분석
    > install.packages("rpart")
    > install.packages("rpart.plot")
    > credit <- read.csv("credit.csv")
    > credit_train <- credit[-17]
    > model_credit <- rpart::rpart(default ~ ., credit)
    > rpart.plot::rpart.plot(model_credit, extra = 1, type = 2)
    



    로지스틱 회귀 분석을 사용하면



    설명 변수를 연속값의 데이터로 변환함으로써 로지스틱 회귀분석 + 순차선택법(스텝와이즈법)을 사용하여 결정목과 유사한 모델을 작성할 수 있을 가능성도 있다.

    연습시 문제


  • C50 패키지를 로드하면 Warning이 나왔다. Warning 나온 상태에서도 일단 움직였다.
  • > library(C50)
    Warning:  パッケージ 'C50' はバージョン 3.6.1 の R の下で造られました 
    
  • R3.6.0 이후는 난수 생성 알고리즘이 변경되어 set.seed() 함수를 사용해도, sample() 함수에 의한 무작위 추출의 결과는 재현하지 않는다. 그래서 책대로 해도 책과는 다른 결과가 나온다 (Tree Size가 바뀐다).
  • 좋은 웹페이지 즐겨찾기