도표화 casTable 직사각형

SAS Viya가 AI 플랫폼이 됩니다.웹 브라우저에서 머신러닝을 설계하고 실행할 수 있는 Studio 환경도 마련되어 있지만 개발자도 프로그래밍 코드로 개발할 수 있다.프로그래밍 언어는 Java/Python/R/SAS를 선택할 수 있습니다.
기계 학습을 사용할 때는 전용 테이블(castable)을 사용하지만, 이번 설명은 그룹화된 데이터의 직사각형도(분포)를 확인하는 방법이다.

데이터 가져오기


이번에 사용한 것은 organics.sas7bdat이다.나이, 성별에 따라 건강상태에 들어가는 데이터다.우선 이 데이터를 읽으세요.
organics = sess.upload('organics.sas7bdat')

그룹화할 열 지정하기


이번에는 여러 열을 그룹으로 지정합니다.
organics.casTable.groupby = ['NGroup', 'Gender']
result = organics.casTable.summary(inputs='Age')
result3 = result.concat_bygroups()
result3['Summary'][['N', 'Min', 'Mean', 'Max', 'Std']]
이렇게 하면 데이터는 다음과 같이 나타날 것이다.
Descriptive Statistics for ORGANICS
N
Min
Mean
Max
Std
NGROUP
GENDER
57.0
29.0
54.298246
78.0
12.562650
F
365.0
24.0
50.682192
79.0
13.316223
M
155.0
23.0
53.858065
78.0
13.177331
U
43.0
18.0
52.627907
78.0
15.104435
A
228.0
27.0
58.070175
79.0
10.859308
F
892.0
19.0
56.383408
79.0
13.528325
M
452.0
24.0
57.488938
79.0
11.934127
U
153.0
21.0
59.150327
79.0
11.843148
B
451.0
20.0
56.416851
79.0
12.255215
F
2079.0
19.0
56.823954
79.0
12.702405
M
1026.0
18.0
57.592593
79.0
12.522748
U
307.0
28.0
57.749186
79.0
11.662981
U
5.0
27.0
56.800000
76.0
18.212633
F
32.0
27.0
47.500000
77.0
16.372676
M
12.0
26.0
46.250000
57.0
10.172378
U
1.0
54.0
54.000000
54.0
NaN

직사각형 추출


직사각형 그림 사용histogram 방법.
result = organics.casTable.histogram(reqpacks=[{'nicebinning':False, 'nbins':10}], inputs=['BILL'])
키 함수를 사용하면 데이터가 분리되어 있음을 알 수 있다.
list(result.keys())
실행 결과.
['ByGroupInfo',
 'ByGroup1.BinDetails',
 'ByGroup2.BinDetails',
 'ByGroup3.BinDetails',
 'ByGroup4.BinDetails',
 'ByGroup5.BinDetails',
 'ByGroup6.BinDetails',
 'ByGroup7.BinDetails',
 'ByGroup8.BinDetails',
 'ByGroup9.BinDetails',
 'ByGroup10.BinDetails',
 'ByGroup11.BinDetails',
 'ByGroup12.BinDetails',
 'ByGroup13.BinDetails',
 'ByGroup14.BinDetails',
 'ByGroup15.BinDetails',
 'ByGroup16.BinDetails',
 'ByGroup17.BinDetails',
 'ByGroup18.BinDetails',
 'ByGroup19.BinDetails',
 'ByGroup20.BinDetails',
 'ByGroup21.BinDetails']
예를 들면 다음과 같습니다.
Bin Details for ORGANICS
Variable
BinSetId
BinId
BinLowerBnd
BinUpperBnd
BinWidth
NInBin
Mean
Std
Min
Max
MidPoint
Percent
NGROUP
GENDER
A
F
BILL


0.010
7000.009
6999.999
734
2608.377643
2396.778681
0.01
7000.00
3500.0095
77.100840
F
BILL


7000.009
14000.008
6999.999
124
10506.032016
1712.541126
7100.00
14000.00
10500.0085
13.025210
F
BILL


14000.008
21000.007
6999.999
54
18051.901481
2189.119118
14105.32
20681.55
17500.0075
5.672269
F
BILL


21000.007
28000.006
6999.999
십구
24540.320526
2133.572237
21008.63
27497.04
24500.0065
1.995798
F
BILL


28000.006
35000.005
6999.999
십일
31520.056364
2326.827210
28113.08
35000.00
31500.0055
1.155462
F
BILL


35000.005
42000.004
6999.999

36440.122500
1095.197998
35465.20
38000.00
38500.0045
0.420168
F
BILL


42000.004
49000.003
6999.999

45857.757500
2592.275555
42160.04
48069.40
45500.0035
0.420168
F
BILL


49000.003
56000.002
6999.999

50000.000000
NaN
50000.00
50000.00
52500.0025
0.105042
F
BILL


56000.002
63000.001
6999.999
0
NaN
NaN
NaN
NaN
59500.0015
0.000000
F
BILL


63000.001
70000.000
6999.999

70000.000000
NaN
70000.00
70000.00
66500.0005
0.105042
그리고 이걸 스트라이프로 만들어.이용한 건 bokeh야.저는 charts입니다.
from bokeh.charts import Bar, Scatter, output_file, show, Area
막대 그래프를 정의합니다.
p = Bar(result['ByGroup1.BinDetails'], 'MidPoint', values='Percent', color='#1f77b4', agg='mean', title='', legend=None, xlabel='Bill', ylabel='Percent')
그런 다음 HTML로 내보내기만 하면 됩니다.
output_file('visual2.html')
show(p)
이제 차트가 그려집니다.

데이터의 편차 등을 조사할 때 직사각형은 매우 편리하다.꼭 해보세요.

좋은 웹페이지 즐겨찾기