2.2.1_Decision_Trees

[키워드]

  • Decision tree
  • pipeline 사용
  • feature importance

[학습내용]

  • 파이프라인 사용

    여러 전처리를 연결해 중복 코드를 최소화할 수 있게 됨

from sklearn.pipeline import make_pipeline
  • decision tree의 개념과 scikit-learn에서의 적용
from sklearn.tree import DecisionTreeClassifier
  • 트리 모델의 비용함수와 불순도
    노드 분할 시 비용함수 줄이는 분할에의 특성과 지점을 찾아내야할 것

    지니불순도와 엔트로피 ~ 불순도 낮을수록 낮은 값
    불순도 : 잘 나누어질수록 낮은 값

  • 만들어진 트리 모델 확인
import graphviz
from sklearn.tree import export_graphviz
  • 과적합 감소시키는 방법 in decision tree
    트리 모델의 복잡도를 낮춰 과적합 감소

    주요 하이퍼파라미터
    min_samples_split : 스플릿 결과 당 최소 샘플 수 설정
    min_samples_leaf : 말단 노드(external node)에 최소한 존재해야 하는 샘플들의 수
    max_depth : 분기의 깊이 설정

좋은 웹페이지 즐겨찾기