도표화 casTable 직사각형
기계 학습을 사용할 때는 전용 테이블(castable)을 사용하지만, 이번 설명은 그룹화된 데이터의 직사각형도(분포)를 확인하는 방법이다.
데이터 가져오기
이번에 사용한 것은
organics.sas7bdat
이다.나이, 성별에 따라 건강상태에 들어가는 데이터다.우선 이 데이터를 읽으세요.organics = sess.upload('organics.sas7bdat')
그룹화할 열 지정하기
이번에는 여러 열을 그룹으로 지정합니다.
organics.casTable.groupby = ['NGroup', 'Gender']
result = organics.casTable.summary(inputs='Age')
result3 = result.concat_bygroups()
result3['Summary'][['N', 'Min', 'Mean', 'Max', 'Std']]
이렇게 하면 데이터는 다음과 같이 나타날 것이다.Descriptive Statistics for ORGANICS
N
Min
Mean
Max
Std
NGROUP
GENDER
57.0
29.0
54.298246
78.0
12.562650
F
365.0
24.0
50.682192
79.0
13.316223
M
155.0
23.0
53.858065
78.0
13.177331
U
43.0
18.0
52.627907
78.0
15.104435
A
228.0
27.0
58.070175
79.0
10.859308
F
892.0
19.0
56.383408
79.0
13.528325
M
452.0
24.0
57.488938
79.0
11.934127
U
153.0
21.0
59.150327
79.0
11.843148
B
451.0
20.0
56.416851
79.0
12.255215
F
2079.0
19.0
56.823954
79.0
12.702405
M
1026.0
18.0
57.592593
79.0
12.522748
U
307.0
28.0
57.749186
79.0
11.662981
U
5.0
27.0
56.800000
76.0
18.212633
F
32.0
27.0
47.500000
77.0
16.372676
M
12.0
26.0
46.250000
57.0
10.172378
U
1.0
54.0
54.000000
54.0
NaN
직사각형 추출
직사각형 그림 사용
histogram
방법.result = organics.casTable.histogram(reqpacks=[{'nicebinning':False, 'nbins':10}], inputs=['BILL'])
키 함수를 사용하면 데이터가 분리되어 있음을 알 수 있다.list(result.keys())
실행 결과.['ByGroupInfo',
'ByGroup1.BinDetails',
'ByGroup2.BinDetails',
'ByGroup3.BinDetails',
'ByGroup4.BinDetails',
'ByGroup5.BinDetails',
'ByGroup6.BinDetails',
'ByGroup7.BinDetails',
'ByGroup8.BinDetails',
'ByGroup9.BinDetails',
'ByGroup10.BinDetails',
'ByGroup11.BinDetails',
'ByGroup12.BinDetails',
'ByGroup13.BinDetails',
'ByGroup14.BinDetails',
'ByGroup15.BinDetails',
'ByGroup16.BinDetails',
'ByGroup17.BinDetails',
'ByGroup18.BinDetails',
'ByGroup19.BinDetails',
'ByGroup20.BinDetails',
'ByGroup21.BinDetails']
예를 들면 다음과 같습니다.Bin Details for ORGANICS
Variable
BinSetId
BinId
BinLowerBnd
BinUpperBnd
BinWidth
NInBin
Mean
Std
Min
Max
MidPoint
Percent
NGROUP
GENDER
A
F
BILL
일
일
0.010
7000.009
6999.999
734
2608.377643
2396.778681
0.01
7000.00
3500.0095
77.100840
F
BILL
일
이
7000.009
14000.008
6999.999
124
10506.032016
1712.541126
7100.00
14000.00
10500.0085
13.025210
F
BILL
일
삼
14000.008
21000.007
6999.999
54
18051.901481
2189.119118
14105.32
20681.55
17500.0075
5.672269
F
BILL
일
사
21000.007
28000.006
6999.999
십구
24540.320526
2133.572237
21008.63
27497.04
24500.0065
1.995798
F
BILL
일
오
28000.006
35000.005
6999.999
십일
31520.056364
2326.827210
28113.08
35000.00
31500.0055
1.155462
F
BILL
일
육
35000.005
42000.004
6999.999
사
36440.122500
1095.197998
35465.20
38000.00
38500.0045
0.420168
F
BILL
일
칠
42000.004
49000.003
6999.999
사
45857.757500
2592.275555
42160.04
48069.40
45500.0035
0.420168
F
BILL
일
팔
49000.003
56000.002
6999.999
일
50000.000000
NaN
50000.00
50000.00
52500.0025
0.105042
F
BILL
일
구
56000.002
63000.001
6999.999
0
NaN
NaN
NaN
NaN
59500.0015
0.000000
F
BILL
일
십
63000.001
70000.000
6999.999
일
70000.000000
NaN
70000.00
70000.00
66500.0005
0.105042
그리고 이걸 스트라이프로 만들어.이용한 건 bokeh야.저는 charts입니다.
from bokeh.charts import Bar, Scatter, output_file, show, Area
막대 그래프를 정의합니다.p = Bar(result['ByGroup1.BinDetails'], 'MidPoint', values='Percent', color='#1f77b4', agg='mean', title='', legend=None, xlabel='Bill', ylabel='Percent')
그런 다음 HTML로 내보내기만 하면 됩니다.output_file('visual2.html')
show(p)
이제 차트가 그려집니다.데이터의 편차 등을 조사할 때 직사각형은 매우 편리하다.꼭 해보세요.
Reference
이 문제에 관하여(도표화 casTable 직사각형), 우리는 이곳에서 더 많은 자료를 발견하고 링크를 클릭하여 보았다 https://qiita.com/ViyaDev/items/b9c1542b9b40949a79eb텍스트를 자유롭게 공유하거나 복사할 수 있습니다.하지만 이 문서의 URL은 참조 URL로 남겨 두십시오.
우수한 개발자 콘텐츠 발견에 전념 (Collection and Share based on the CC Protocol.)