[기계 학습] 결정 트리 모델의 차이를 총결하였다.
1. 소개
이전의 투고에서 나는 기계 학습에 관한 두 편의 문장을 썼다.
전체상기계 학습 초보자인 나에게 경고하는'4가지 충고'의 2-2)
사전 처리 정보기계 학습 데이터 사전 처리 비망록.
다른 곳도 총괄하다.
2. 기계 학습의 전체적인 회고
이전 보도에서도 소개한 기계학습의 전체적인 상황은 다음과 같다.
이번에는 붉은 테두리로 둘러싸는 수법에 관한 선택이다.
그림2-1 머신러닝의 전반적인 상황
이 방법 선택에서 최근에 내가 자주 사용하는 결정 트리 모델을 정리한다.
결정 트리 모델은 회귀 모델과 분류 모델에서 모두 라이브러리로 준비된다
이번에는 분류 모델에 관한 것이다.
3. 결정 트리 모델은 무엇입니까
원래 나무 모형이 뭘까요?
결정 트리 모델 사용은 불순도 지니계수(또는 엔트로피)를 나타낸다
분류된 모델입니다.
시각적으로 분류할 수 있는 모습도 장점이 있다.
여기서 지니계수의 공식 설명을 생략하다
여러분이 감각적으로 잡을 수 있도록 아래의 일을 상상해 보세요.
어떤 곳에는 다크 초콜릿, 우유 초콜릿, 딸기 초콜릿이 있다
3종의 초콜릿은 각각 50개가 있다.
이 여러 개의 초콜릿을 종류에 따라 세 조로 나누어라.
이 초콜릿의 특정한 특징량을 한도값으로 하고 이 한도값에 따라 구분한다
3가지 모두 분리된 상태를 목표로 한다.
예를 들어 코코아의 양이 50% 이상인지 여부에 따라 분류한다.
이때 다크 초콜릿, 밀크 초콜릿, 딸기 초콜릿
각각 30개를 혼합하여 1개 그룹 상태가 되면 지니계수가 높다
다크 초콜릿, 우유 초콜릿, 딸기 초콜릿
세 가지 상태로 예쁘게 나누면 지니계수는 0이 된다.
다음은 실제로 Iris의 데이터에서 의사결정 트리 모델을 집중적으로 사용하고 시각화된 예를 붙인다.
그림 3-1.Iris 데이터 세트 시각화 DecisionTreeClassifier 사용
이상은 간단한 결정 트리 모델입니다.
이 결정 트리 모형을 응용한 모형이 몇 개 있기 때문에, 그 차이는 다음 장에서 쓰인다.
4. 모델별 차이점
4-1.결정 트리 모델 유형
우선, 응용 결정 트리 모델의 모델은 다음과 같은 몇 가지가 있다.
・XGBoost
・LightGBM
・RandomForest
크게 XGBoost와 LightGBM으로 나뉘어 부스팅 방법을 사용했습니다.
RandomForest는 바킨이라는 방법을 사용했습니다.
이 전시실과 광택 두 개를 설명하기 위해서.
편차와 발리라는 단어를 이해할 필요가 있으니까.
우선 이 두 개의 차이를 설명한다.
4-2.편향 및 가변
■ 편압
편향 은 편향 이라는 뜻 을 지닌 단어 이다
기계학습 분야에서는'실제치와 예측치의 오차가 평균'이라고 한다.
알기 쉬운 예로 말하자면 다음과 같은 식의 b의 부분이다.
$$y=ax+b$$
■ 발리
발리는'분산'이라는 뜻을 가진 단어이다
머신러닝 분야에서는'예측치의 분산 정도'를 나타낸다.
다음 그림은 편향과 가변을 설명할 때 자주 사용된다
편차와 편차의 고저차를 그림으로 한 것이다.
붉은 동그라미는 진짜 값이고, 파란 점은 예상 값이다.
이쪽을 보면 시각적으로 상상할 수 있어요.
오른쪽 위는 "높은 편차"상태이고 왼쪽 아래는 "높은 편차"상태입니다.
그림4-2-1.편향 및 가변
4-3.향상된 광택
■ 전시 부스
전시 부스는 예측 모델의 오류 예측에 초점을 맞추는 것을 가리킨다
권중을 넣어 다음 모델을 개선하는 방법.
아까 편차와 발리라는 단어를 사용하면...
편차를 줄이다.
■ 바킨
바킨은'Bootstrap Aggregating(자거법)'의 줄임말이다.
복원 추출로 학습 데이터를 무작위로 추출하여 학습하는 방법이다.
아까 편차와 발리라는 단어를 사용하면...
검증을 줄이다.
4-4.XGBoost와 LightGBM의 차이점
XGBoost와 LightGBM이 전시석이라고 썼어요.
이 두 가지 차이는 정책 결정 트리의'계층'에 착안하는가,'잎'에 착안하는가의 차이이다.
자세한 내용은 이해하기 쉽기 때문에 여기를 참조하십시오.
5. 요약
나무 모형이 뭔지 정하는 이야기부터.
응용 결정 트리 모델의 모델의 차이를 총결하였다.
한 번 이해한 후에 결정 트리 모형을 사용한 것 같다
나는 실제 설명을 하려면 매우 어렵다는 것을 깊이 느꼈다.
다만 이해가 된다면 시각화도 쉽고 훌륭한 기법이니 힘내서 사용하세요.
무슨 잘못이 있으면 지적해 주세요.
Reference
이 문제에 관하여([기계 학습] 결정 트리 모델의 차이를 총결하였다.), 우리는 이곳에서 더 많은 자료를 발견하고 링크를 클릭하여 보았다
https://qiita.com/takuya_tsurumi/items/23fdc43ee0e54ec7c87e
텍스트를 자유롭게 공유하거나 복사할 수 있습니다.하지만 이 문서의 URL은 참조 URL로 남겨 두십시오.
우수한 개발자 콘텐츠 발견에 전념
(Collection and Share based on the CC Protocol.)
이전 보도에서도 소개한 기계학습의 전체적인 상황은 다음과 같다.
이번에는 붉은 테두리로 둘러싸는 수법에 관한 선택이다.
그림2-1 머신러닝의 전반적인 상황
이 방법 선택에서 최근에 내가 자주 사용하는 결정 트리 모델을 정리한다.
결정 트리 모델은 회귀 모델과 분류 모델에서 모두 라이브러리로 준비된다
이번에는 분류 모델에 관한 것이다.
3. 결정 트리 모델은 무엇입니까
원래 나무 모형이 뭘까요?
결정 트리 모델 사용은 불순도 지니계수(또는 엔트로피)를 나타낸다
분류된 모델입니다.
시각적으로 분류할 수 있는 모습도 장점이 있다.
여기서 지니계수의 공식 설명을 생략하다
여러분이 감각적으로 잡을 수 있도록 아래의 일을 상상해 보세요.
어떤 곳에는 다크 초콜릿, 우유 초콜릿, 딸기 초콜릿이 있다
3종의 초콜릿은 각각 50개가 있다.
이 여러 개의 초콜릿을 종류에 따라 세 조로 나누어라.
이 초콜릿의 특정한 특징량을 한도값으로 하고 이 한도값에 따라 구분한다
3가지 모두 분리된 상태를 목표로 한다.
예를 들어 코코아의 양이 50% 이상인지 여부에 따라 분류한다.
이때 다크 초콜릿, 밀크 초콜릿, 딸기 초콜릿
각각 30개를 혼합하여 1개 그룹 상태가 되면 지니계수가 높다
다크 초콜릿, 우유 초콜릿, 딸기 초콜릿
세 가지 상태로 예쁘게 나누면 지니계수는 0이 된다.
다음은 실제로 Iris의 데이터에서 의사결정 트리 모델을 집중적으로 사용하고 시각화된 예를 붙인다.
그림 3-1.Iris 데이터 세트 시각화 DecisionTreeClassifier 사용
이상은 간단한 결정 트리 모델입니다.
이 결정 트리 모형을 응용한 모형이 몇 개 있기 때문에, 그 차이는 다음 장에서 쓰인다.
4. 모델별 차이점
4-1.결정 트리 모델 유형
우선, 응용 결정 트리 모델의 모델은 다음과 같은 몇 가지가 있다.
・XGBoost
・LightGBM
・RandomForest
크게 XGBoost와 LightGBM으로 나뉘어 부스팅 방법을 사용했습니다.
RandomForest는 바킨이라는 방법을 사용했습니다.
이 전시실과 광택 두 개를 설명하기 위해서.
편차와 발리라는 단어를 이해할 필요가 있으니까.
우선 이 두 개의 차이를 설명한다.
4-2.편향 및 가변
■ 편압
편향 은 편향 이라는 뜻 을 지닌 단어 이다
기계학습 분야에서는'실제치와 예측치의 오차가 평균'이라고 한다.
알기 쉬운 예로 말하자면 다음과 같은 식의 b의 부분이다.
$$y=ax+b$$
■ 발리
발리는'분산'이라는 뜻을 가진 단어이다
머신러닝 분야에서는'예측치의 분산 정도'를 나타낸다.
다음 그림은 편향과 가변을 설명할 때 자주 사용된다
편차와 편차의 고저차를 그림으로 한 것이다.
붉은 동그라미는 진짜 값이고, 파란 점은 예상 값이다.
이쪽을 보면 시각적으로 상상할 수 있어요.
오른쪽 위는 "높은 편차"상태이고 왼쪽 아래는 "높은 편차"상태입니다.
그림4-2-1.편향 및 가변
4-3.향상된 광택
■ 전시 부스
전시 부스는 예측 모델의 오류 예측에 초점을 맞추는 것을 가리킨다
권중을 넣어 다음 모델을 개선하는 방법.
아까 편차와 발리라는 단어를 사용하면...
편차를 줄이다.
■ 바킨
바킨은'Bootstrap Aggregating(자거법)'의 줄임말이다.
복원 추출로 학습 데이터를 무작위로 추출하여 학습하는 방법이다.
아까 편차와 발리라는 단어를 사용하면...
검증을 줄이다.
4-4.XGBoost와 LightGBM의 차이점
XGBoost와 LightGBM이 전시석이라고 썼어요.
이 두 가지 차이는 정책 결정 트리의'계층'에 착안하는가,'잎'에 착안하는가의 차이이다.
자세한 내용은 이해하기 쉽기 때문에 여기를 참조하십시오.
5. 요약
나무 모형이 뭔지 정하는 이야기부터.
응용 결정 트리 모델의 모델의 차이를 총결하였다.
한 번 이해한 후에 결정 트리 모형을 사용한 것 같다
나는 실제 설명을 하려면 매우 어렵다는 것을 깊이 느꼈다.
다만 이해가 된다면 시각화도 쉽고 훌륭한 기법이니 힘내서 사용하세요.
무슨 잘못이 있으면 지적해 주세요.
Reference
이 문제에 관하여([기계 학습] 결정 트리 모델의 차이를 총결하였다.), 우리는 이곳에서 더 많은 자료를 발견하고 링크를 클릭하여 보았다
https://qiita.com/takuya_tsurumi/items/23fdc43ee0e54ec7c87e
텍스트를 자유롭게 공유하거나 복사할 수 있습니다.하지만 이 문서의 URL은 참조 URL로 남겨 두십시오.
우수한 개발자 콘텐츠 발견에 전념
(Collection and Share based on the CC Protocol.)
4-1.결정 트리 모델 유형
우선, 응용 결정 트리 모델의 모델은 다음과 같은 몇 가지가 있다.
・XGBoost
・LightGBM
・RandomForest
크게 XGBoost와 LightGBM으로 나뉘어 부스팅 방법을 사용했습니다.
RandomForest는 바킨이라는 방법을 사용했습니다.
이 전시실과 광택 두 개를 설명하기 위해서.
편차와 발리라는 단어를 이해할 필요가 있으니까.
우선 이 두 개의 차이를 설명한다.
4-2.편향 및 가변
■ 편압
편향 은 편향 이라는 뜻 을 지닌 단어 이다
기계학습 분야에서는'실제치와 예측치의 오차가 평균'이라고 한다.
알기 쉬운 예로 말하자면 다음과 같은 식의 b의 부분이다.
$$y=ax+b$$
■ 발리
발리는'분산'이라는 뜻을 가진 단어이다
머신러닝 분야에서는'예측치의 분산 정도'를 나타낸다.
다음 그림은 편향과 가변을 설명할 때 자주 사용된다
편차와 편차의 고저차를 그림으로 한 것이다.
붉은 동그라미는 진짜 값이고, 파란 점은 예상 값이다.
이쪽을 보면 시각적으로 상상할 수 있어요.
오른쪽 위는 "높은 편차"상태이고 왼쪽 아래는 "높은 편차"상태입니다.
그림4-2-1.편향 및 가변
4-3.향상된 광택
■ 전시 부스
전시 부스는 예측 모델의 오류 예측에 초점을 맞추는 것을 가리킨다
권중을 넣어 다음 모델을 개선하는 방법.
아까 편차와 발리라는 단어를 사용하면...
편차를 줄이다.
■ 바킨
바킨은'Bootstrap Aggregating(자거법)'의 줄임말이다.
복원 추출로 학습 데이터를 무작위로 추출하여 학습하는 방법이다.
아까 편차와 발리라는 단어를 사용하면...
검증을 줄이다.
4-4.XGBoost와 LightGBM의 차이점
XGBoost와 LightGBM이 전시석이라고 썼어요.
이 두 가지 차이는 정책 결정 트리의'계층'에 착안하는가,'잎'에 착안하는가의 차이이다.
자세한 내용은 이해하기 쉽기 때문에 여기를 참조하십시오.
5. 요약
나무 모형이 뭔지 정하는 이야기부터.
응용 결정 트리 모델의 모델의 차이를 총결하였다.
한 번 이해한 후에 결정 트리 모형을 사용한 것 같다
나는 실제 설명을 하려면 매우 어렵다는 것을 깊이 느꼈다.
다만 이해가 된다면 시각화도 쉽고 훌륭한 기법이니 힘내서 사용하세요.
무슨 잘못이 있으면 지적해 주세요.
Reference
이 문제에 관하여([기계 학습] 결정 트리 모델의 차이를 총결하였다.), 우리는 이곳에서 더 많은 자료를 발견하고 링크를 클릭하여 보았다
https://qiita.com/takuya_tsurumi/items/23fdc43ee0e54ec7c87e
텍스트를 자유롭게 공유하거나 복사할 수 있습니다.하지만 이 문서의 URL은 참조 URL로 남겨 두십시오.
우수한 개발자 콘텐츠 발견에 전념
(Collection and Share based on the CC Protocol.)
Reference
이 문제에 관하여([기계 학습] 결정 트리 모델의 차이를 총결하였다.), 우리는 이곳에서 더 많은 자료를 발견하고 링크를 클릭하여 보았다 https://qiita.com/takuya_tsurumi/items/23fdc43ee0e54ec7c87e텍스트를 자유롭게 공유하거나 복사할 수 있습니다.하지만 이 문서의 URL은 참조 URL로 남겨 두십시오.
우수한 개발자 콘텐츠 발견에 전념 (Collection and Share based on the CC Protocol.)