【PowerBI 메모】 인터랙티브 결정 나무를 만들자!
PowerBI에서는 통상 아무래도 2~3변수 정도의 분석·가시화 밖에 할 수 없고, 치아가 느린 생각을 한 적이 있는 사람도 있을지도 모릅니다.
엄밀하게는 베이지안 네트워크라든지, 구조 방정식 모델링이라든지 여러가지 있습니다만,
비교적 간단하게 구현하고, 클라이언트나 상사 등에도 설명하기 쉬운 "결정 나무"를 PowerBI로 만들어 보겠습니다!
대상 독자
PowerBI의 기본 작업을 알 수 있습니다.
조금 통계 해석에 근거한 시각화를 해보고 싶다
데이터 세트 준비
이번에는, 유명한 타이타닉호의 사망・생존 데이터를 사용합니다. (어두운 데이터입니다 죄송합니다 ...)
유명한 데이터 과학 콘테스트 사이트 "kaggle"에서 다운로드하십시오.
htps //w w. 꺄gぇ. 이 m/c/치타니 c/다타
PowerBI로 가져오기
데이터는 이런 느낌입니다.
이번에는 데이터 세트의 [Survived] 요소를 시각화합니다.
0,1이라고 알기 힘들기 때문에, DAX 함수의 swith를 사용해,
생존할 수 있었습니까? ⇒0:No,1:Yes로 대체합시다.
SurvivedJp = SWITCH([Survived],0,"No",1,"Yes")
Rcode를 쓰자!
데이터 세트가 준비되었으므로 R에서 결정 트리를 작성하는 스크립트를 작성합니다.
실질 2 라인으로 좋기 때문에 정말 간단! 결정 나무를 사랑 해요.
DecisionTree.rlibrary(rpart) #決定木モデルを作るパッケージ
library(partykit) #決定木を描写するパッケージ
dataset.tree <- rpart::rpart(SurvivedJp ~ . - PassengerId, data = dataset, method = "class")
plot(partykit::as.party(dataset.tree))
ID 이외의 투입한 변수 모두를 설명 변수로 하고,
생존(Yes)과 사망(NO) 결과에 영향을 준 순서대로 요인을 시각화합니다.
이번은 「Sex」, 「Age」, 「Pclass(객실의 랭크)」를 설명 변수에 짜넣어, 이런 그림이 생겼습니다.
일반 PowerBI의 비주얼에 비해 외로운 것은 놓치세요 (웃음)
좀 더 자세히 조사하면 개량할 수 있을지도・・・?
위 그림의 견해입니다만, 우선 성별(sex)의 남성인가, 여성인가가 생존에 영향이 있는 것 같습니다.
남성은 나이가 6.5세보다 높거나 낮은지가 생사에 영향을 주는 것 같습니다.
6.5세 이상이라면 사망(No),
6.5세 이하라면 생존(Yes)의 비율이 높은 것을 알 수 있습니다.
가장 생존율이 높은 것은 여성(female)에서 객실(Pclass)이 2등 이하인 경우인 것 같습니다.
비교적 이해하기 쉽고 설명하기 쉬운 결정 트리는 PowerBI에 적합 할 수 있습니다.
숫자 데이터와 카테고리 데이터 모두 읽을 수 있습니다.
※ 물론, 상기 분석 결과는 그 외의 요인을 검토하거나 하면, 보다 상세하게 구분할 수 있을지도 모릅니다.
어디까지나 해석하는 방법의 일례입니다.
결정 트리가 대화식으로 만들 수 있습니다.
이전 기사에서도 다루었습니다만, R 비주얼이 인터랙티브하게 조작할 수 있는 것이 좋은 곳.
이번과 같이 모델 작성 스크립트를 비주얼에 넣어두면,
값 필드에 변수를 넣거나 빼면 분석 결과를 볼 수 있습니다.
끝에
이상, PowerBI에서 결정 트리를 사용한 요인 분석을 실시해 보았습니다!
R은 비교적 간단한 코드로 시각화를 구현할 수 있으므로 꼭 사용해보십시오.
통상의 PowerBI의 비주얼과 조합해 사용하면, 분석 용도의 폭이 넓어집니다-.
Reference
이 문제에 관하여(【PowerBI 메모】 인터랙티브 결정 나무를 만들자!), 우리는 이곳에서 더 많은 자료를 발견하고 링크를 클릭하여 보았다
https://qiita.com/h_kobayashi1125/items/2f27f7edaa9fb41d5b9d
텍스트를 자유롭게 공유하거나 복사할 수 있습니다.하지만 이 문서의 URL은 참조 URL로 남겨 두십시오.
우수한 개발자 콘텐츠 발견에 전념
(Collection and Share based on the CC Protocol.)
이번에는, 유명한 타이타닉호의 사망・생존 데이터를 사용합니다. (어두운 데이터입니다 죄송합니다 ...)
유명한 데이터 과학 콘테스트 사이트 "kaggle"에서 다운로드하십시오.
htps //w w. 꺄gぇ. 이 m/c/치타니 c/다타
PowerBI로 가져오기
데이터는 이런 느낌입니다.
이번에는 데이터 세트의 [Survived] 요소를 시각화합니다.
0,1이라고 알기 힘들기 때문에, DAX 함수의 swith를 사용해,
생존할 수 있었습니까? ⇒0:No,1:Yes로 대체합시다.
SurvivedJp = SWITCH([Survived],0,"No",1,"Yes")
Rcode를 쓰자!
데이터 세트가 준비되었으므로 R에서 결정 트리를 작성하는 스크립트를 작성합니다.
실질 2 라인으로 좋기 때문에 정말 간단! 결정 나무를 사랑 해요.
DecisionTree.rlibrary(rpart) #決定木モデルを作るパッケージ
library(partykit) #決定木を描写するパッケージ
dataset.tree <- rpart::rpart(SurvivedJp ~ . - PassengerId, data = dataset, method = "class")
plot(partykit::as.party(dataset.tree))
ID 이외의 투입한 변수 모두를 설명 변수로 하고,
생존(Yes)과 사망(NO) 결과에 영향을 준 순서대로 요인을 시각화합니다.
이번은 「Sex」, 「Age」, 「Pclass(객실의 랭크)」를 설명 변수에 짜넣어, 이런 그림이 생겼습니다.
일반 PowerBI의 비주얼에 비해 외로운 것은 놓치세요 (웃음)
좀 더 자세히 조사하면 개량할 수 있을지도・・・?
위 그림의 견해입니다만, 우선 성별(sex)의 남성인가, 여성인가가 생존에 영향이 있는 것 같습니다.
남성은 나이가 6.5세보다 높거나 낮은지가 생사에 영향을 주는 것 같습니다.
6.5세 이상이라면 사망(No),
6.5세 이하라면 생존(Yes)의 비율이 높은 것을 알 수 있습니다.
가장 생존율이 높은 것은 여성(female)에서 객실(Pclass)이 2등 이하인 경우인 것 같습니다.
비교적 이해하기 쉽고 설명하기 쉬운 결정 트리는 PowerBI에 적합 할 수 있습니다.
숫자 데이터와 카테고리 데이터 모두 읽을 수 있습니다.
※ 물론, 상기 분석 결과는 그 외의 요인을 검토하거나 하면, 보다 상세하게 구분할 수 있을지도 모릅니다.
어디까지나 해석하는 방법의 일례입니다.
결정 트리가 대화식으로 만들 수 있습니다.
이전 기사에서도 다루었습니다만, R 비주얼이 인터랙티브하게 조작할 수 있는 것이 좋은 곳.
이번과 같이 모델 작성 스크립트를 비주얼에 넣어두면,
값 필드에 변수를 넣거나 빼면 분석 결과를 볼 수 있습니다.
끝에
이상, PowerBI에서 결정 트리를 사용한 요인 분석을 실시해 보았습니다!
R은 비교적 간단한 코드로 시각화를 구현할 수 있으므로 꼭 사용해보십시오.
통상의 PowerBI의 비주얼과 조합해 사용하면, 분석 용도의 폭이 넓어집니다-.
Reference
이 문제에 관하여(【PowerBI 메모】 인터랙티브 결정 나무를 만들자!), 우리는 이곳에서 더 많은 자료를 발견하고 링크를 클릭하여 보았다
https://qiita.com/h_kobayashi1125/items/2f27f7edaa9fb41d5b9d
텍스트를 자유롭게 공유하거나 복사할 수 있습니다.하지만 이 문서의 URL은 참조 URL로 남겨 두십시오.
우수한 개발자 콘텐츠 발견에 전념
(Collection and Share based on the CC Protocol.)
SurvivedJp = SWITCH([Survived],0,"No",1,"Yes")
데이터 세트가 준비되었으므로 R에서 결정 트리를 작성하는 스크립트를 작성합니다.
실질 2 라인으로 좋기 때문에 정말 간단! 결정 나무를 사랑 해요.
DecisionTree.r
library(rpart) #決定木モデルを作るパッケージ
library(partykit) #決定木を描写するパッケージ
dataset.tree <- rpart::rpart(SurvivedJp ~ . - PassengerId, data = dataset, method = "class")
plot(partykit::as.party(dataset.tree))
ID 이외의 투입한 변수 모두를 설명 변수로 하고,
생존(Yes)과 사망(NO) 결과에 영향을 준 순서대로 요인을 시각화합니다.
이번은 「Sex」, 「Age」, 「Pclass(객실의 랭크)」를 설명 변수에 짜넣어, 이런 그림이 생겼습니다.
일반 PowerBI의 비주얼에 비해 외로운 것은 놓치세요 (웃음)
좀 더 자세히 조사하면 개량할 수 있을지도・・・?
위 그림의 견해입니다만, 우선 성별(sex)의 남성인가, 여성인가가 생존에 영향이 있는 것 같습니다.
남성은 나이가 6.5세보다 높거나 낮은지가 생사에 영향을 주는 것 같습니다.
6.5세 이상이라면 사망(No),
6.5세 이하라면 생존(Yes)의 비율이 높은 것을 알 수 있습니다.
가장 생존율이 높은 것은 여성(female)에서 객실(Pclass)이 2등 이하인 경우인 것 같습니다.
비교적 이해하기 쉽고 설명하기 쉬운 결정 트리는 PowerBI에 적합 할 수 있습니다.
숫자 데이터와 카테고리 데이터 모두 읽을 수 있습니다.
※ 물론, 상기 분석 결과는 그 외의 요인을 검토하거나 하면, 보다 상세하게 구분할 수 있을지도 모릅니다.
어디까지나 해석하는 방법의 일례입니다.
결정 트리가 대화식으로 만들 수 있습니다.
이전 기사에서도 다루었습니다만, R 비주얼이 인터랙티브하게 조작할 수 있는 것이 좋은 곳.
이번과 같이 모델 작성 스크립트를 비주얼에 넣어두면,
값 필드에 변수를 넣거나 빼면 분석 결과를 볼 수 있습니다.
끝에
이상, PowerBI에서 결정 트리를 사용한 요인 분석을 실시해 보았습니다!
R은 비교적 간단한 코드로 시각화를 구현할 수 있으므로 꼭 사용해보십시오.
통상의 PowerBI의 비주얼과 조합해 사용하면, 분석 용도의 폭이 넓어집니다-.
Reference
이 문제에 관하여(【PowerBI 메모】 인터랙티브 결정 나무를 만들자!), 우리는 이곳에서 더 많은 자료를 발견하고 링크를 클릭하여 보았다
https://qiita.com/h_kobayashi1125/items/2f27f7edaa9fb41d5b9d
텍스트를 자유롭게 공유하거나 복사할 수 있습니다.하지만 이 문서의 URL은 참조 URL로 남겨 두십시오.
우수한 개발자 콘텐츠 발견에 전념
(Collection and Share based on the CC Protocol.)
이상, PowerBI에서 결정 트리를 사용한 요인 분석을 실시해 보았습니다!
R은 비교적 간단한 코드로 시각화를 구현할 수 있으므로 꼭 사용해보십시오.
통상의 PowerBI의 비주얼과 조합해 사용하면, 분석 용도의 폭이 넓어집니다-.
Reference
이 문제에 관하여(【PowerBI 메모】 인터랙티브 결정 나무를 만들자!), 우리는 이곳에서 더 많은 자료를 발견하고 링크를 클릭하여 보았다 https://qiita.com/h_kobayashi1125/items/2f27f7edaa9fb41d5b9d텍스트를 자유롭게 공유하거나 복사할 수 있습니다.하지만 이 문서의 URL은 참조 URL로 남겨 두십시오.
우수한 개발자 콘텐츠 발견에 전념 (Collection and Share based on the CC Protocol.)