데이터 분석(데이터 시각화3)

7598 단어 Pythonplotly

개시하다


초보자를 대상으로python의 데이터 해석에 대해 해설을 진행하였다.
이것은 세 번째 보도다.
과거의 글
데이터 분석(데이터 시각화1)
https://qiita.com/CEML/items/d673713e25242e6b4cdb
데이터 분석(데이터 시각화2)
https://qiita.com/CEML/items/e932684502764be09157
소스 코드
https://gitlab.com/ceml/qiita/-/blob/master/src/python/notebook/first_time_data_analysis.ipynb

안녕히 계십시오.


이 시리즈에서.
무료로 공개된 데이터 집합을 이용해 데이터에서 간단한 데이터 해석까지 해설한다.
데이터 세트 정보
• 제공업체: 캘리포니아공과대학
/내용: 심장병 환자의 검사 데이터
・URL:https://archive.ics.uci.edu/ml/datasets/Heart+Disease
• 위 URL의 processedcleveland.데이터만 사용합니다.
해석 목적
데이터 집합은 환자의 병태를 다섯 가지 유형으로 나눈다.
나는 각 반의 특징을 잡는 것을 목적으로 분석하고 싶다.
※ 데이터 다운로드 등은 과거 기사를 참조하세요.

본 보도의 내용


1. 분류 변수의 도표 만들기
2.3D plot

데이터 읽기

#データの読み込み
columns_name = ["age", "sex", "cp", "trestbps", "chol", "fbs", "restecg", "thalach", "exang", "oldpeak","slope","ca","thal","class"]
data = pd.read_csv("/Users/processed.cleveland.data", names=columns_name)
# 病態のclassでグループ化
class_group = data.groupby("class")

1. 변수를 분류하는 도표


이번 데이터 집합에서 분류 변수는'sex','cp','fbs','restrecg','exang','slope','ca','thal'8개 변수다.
import plotly.express as px
categorical_feature = ['sex', 'cp', 'fbs', 'restecg', 'exang', 'slope', 'ca', 'thal']
fig = px.parallel_categories(data, 
                             dimensions= categorical_feature,
                             color="class",)
fig.show()

※ 그림을 클릭하면 상호작용을 체험할 수 있습니다.
링크에서 조작하면 각 분류의 조합이 몇 개인지 등도 정확히 알 수 있다.
색깔은 병적인 반에서 색깔로 구분된다.
예를 들어 병세가 심각한 4개 반의 모든 조합은 유일무이하다.

2. 3D plot


이번 데이터 집합에서 연속 변수는'age','trestbps','chol','thalach','oldpeak'5개 변수이다.
예를 들어 우리는'chol','thalach','oldpeak'로 그린다.
import plotly.express as px
fig = px.scatter_3d(data, x='chol', y='thalach', z='oldpeak',
              color='class',  opacity=0.5)
fig.update_layout(margin=dict(l=0, r=0, b=0, t=0))
fig.update_traces(marker=dict(size=2))
fig.show()

※ 그림을 클릭하면 상호작용을 체험할 수 있습니다.
나는 각 반의 분류가 그다지 명확하지 않다는 것을 안다.
일반적으로 이 세 변수만 학급을 잘 분류할 수 없다고 여긴다.

끝말


이번과 지난번에plotly를 사용하여 데이터를 시각화했습니다.
사용한 것은 일부분일 뿐, 많은 시도를 해 보았지만 재미있는 발견이 있을 수 있다.

좋은 웹페이지 즐겨찾기