【PowerBI 메모】 인터랙티브 결정 나무를 만들자!

4278 단어 PowerBIR통계
어떤 변수(데이터)에 영향을 주는 요인을 분석하고 싶다.
PowerBI에서는 통상 아무래도 2~3변수 정도의 분석·가시화 밖에 할 수 없고, 치아가 느린 생각을 한 적이 있는 사람도 있을지도 모릅니다.

엄밀하게는 베이지안 네트워크라든지, 구조 방정식 모델링이라든지 여러가지 있습니다만,
비교적 간단하게 구현하고, 클라이언트나 상사 등에도 설명하기 쉬운 "결정 나무"를 PowerBI로 만들어 보겠습니다!

대상 독자



PowerBI의 기본 작업을 알 수 있습니다.
조금 통계 해석에 근거한 시각화를 해보고 싶다

데이터 세트 준비



이번에는, 유명한 타이타닉호의 사망・생존 데이터를 사용합니다. (어두운 데이터입니다 죄송합니다 ...)
유명한 데이터 과학 콘테스트 사이트 "kaggle"에서 다운로드하십시오.
htps //w w. 꺄gぇ. 이 m/c/치타니 c/다타

PowerBI로 가져오기



데이터는 이런 느낌입니다.


 

이번에는 데이터 세트의 [Survived] 요소를 시각화합니다.
0,1이라고 알기 힘들기 때문에, DAX 함수의 swith를 사용해,
생존할 수 있었습니까? ⇒0:No,1:Yes로 대체합시다.
SurvivedJp = SWITCH([Survived],0,"No",1,"Yes")



 

Rcode를 쓰자!



데이터 세트가 준비되었으므로 R에서 결정 트리를 작성하는 스크립트를 작성합니다.
실질 2 라인으로 좋기 때문에 정말 간단! 결정 나무를 사랑 해요.

DecisionTree.r
library(rpart) #決定木モデルを作るパッケージ
library(partykit) #決定木を描写するパッケージ
dataset.tree <- rpart::rpart(SurvivedJp ~ . - PassengerId, data = dataset, method = "class")
plot(partykit::as.party(dataset.tree))


ID 이외의 투입한 변수 모두를 설명 변수로 하고,
생존(Yes)과 사망(NO) 결과에 영향을 준 순서대로 요인을 시각화합니다.

이번은 「Sex」, 「Age」, 「Pclass(객실의 랭크)」를 설명 변수에 짜넣어, 이런 그림이 생겼습니다.


일반 PowerBI의 비주얼에 비해 외로운 것은 놓치세요 (웃음)
좀 더 자세히 조사하면 개량할 수 있을지도・・・?
 
위 그림의 견해입니다만, 우선 성별(sex)의 남성인가, 여성인가가 생존에 영향이 있는 것 같습니다.
남성은 나이가 6.5세보다 높거나 낮은지가 생사에 영향을 주는 것 같습니다.
6.5세 이상이라면 사망(No),
6.5세 이하라면 생존(Yes)의 비율이 높은 것을 알 수 있습니다.
가장 생존율이 높은 것은 여성(female)에서 객실(Pclass)이 2등 이하인 경우인 것 같습니다.

비교적 이해하기 쉽고 설명하기 쉬운 결정 트리는 PowerBI에 적합 할 수 있습니다.
숫자 데이터와 카테고리 데이터 모두 읽을 수 있습니다.
※ 물론, 상기 분석 결과는 그 외의 요인을 검토하거나 하면, 보다 상세하게 구분할 수 있을지도 모릅니다.
어디까지나 해석하는 방법의 일례입니다.

결정 트리가 대화식으로 만들 수 있습니다.



이전 기사에서도 다루었습니다만, R 비주얼이 인터랙티브하게 조작할 수 있는 것이 좋은 곳.
이번과 같이 모델 작성 스크립트를 비주얼에 넣어두면,
값 필드에 변수를 넣거나 빼면 분석 결과를 볼 수 있습니다.



끝에



이상, PowerBI에서 결정 트리를 사용한 요인 분석을 실시해 보았습니다!
R은 비교적 간단한 코드로 시각화를 구현할 수 있으므로 꼭 사용해보십시오.
통상의 PowerBI의 비주얼과 조합해 사용하면, 분석 용도의 폭이 넓어집니다-.

좋은 웹페이지 즐겨찾기