Bluemix에서 데이터 분석 「dashDB」× 통계 언어 「R」 Part2:브라우저로부터 가볍게 실천편
h tp : // 쿠이타. 코 m / 아제 텐 / ms / 바 37, 865, b120, 296c
Part2에서는, 인간의 나이, 혼인, 수입 등등의 데이터를 사용해 결정 나무 분석을 해 보았습니다.
간단한 흐름
그럼 해보자.
브라우저에서 R 환경에 로그인
왼쪽 창의 Analytics에서 R Scripts를 클릭합니다. 에서 R Studio를 클릭합니다.
로그인 화면이 나오므로 dashDB에 로그인하는 데 필요한 ID와 PW를 입력합니다.
그러면 그처럼 멋진 화면이 나옵니다. 이것이 R Studio 환경입니다.
R 스크립트 작성
(1) 전용 라이브러리 로드 → dashDB에 접속
dashDB의이 R 기능 (정식적으로 In-DB Analytics)을 사용하면,
DB의 데이터를 클라이언트측에 가져오지 않고 DB 안에서 R을 사용한 분석을 할 수 있다는 것이 기쁜 포인트입니다. 그러므로 이를 위해 라이브러리 "ibmdbR"을 읽어야 합니다.
그런 다음 DB에 연결합니다. 본래는 DSN을 스스로 설정할 필요가 있습니다만, WEB 브라우저로부터 하면 그것이 필요없는 것 같다.
dashDB용 라이브러리를 읽고 DB에 연결
#ライブラリを読み込む
library(ibmdbR)
#DBに接続する
con <- idaConnect('BLUDB')
idaInit(con)
(2) 처리를 고르게 코딩
① ADULT 테이블의 내용을 데이터 프레임이라는 상자에 넣습니다.
데이터 프레임에 테이블 내용을 넣습니다.
#テーブルをデータフレームに入れる
adult_df <- ida.data.frame('adult')
#データフレームの中身を確認する
adult_df
그래서 내용을 확인하면 이런 출력입니다.
SELECT "ID","AGE","WORKCLASS","FNLWGT","EDUCATION","EDUCATION_NUM","MARITAL_STATUS","OCCUPATION","RELATIONSHIP","RACE","SEX","CAPITAL_GAIN","CAPITAL_LOSS","HOURS_PER_WEEK","INCOME"FROM adult
과연. 데이터 자체가 들어 있는 것이 아니라 SQL이 정의된 것 같습니다.
이것이라고 하면, 데이터를 클라이언트측에 가져오는 것이 아니라 SQL을 던진다는 것이 되기 때문에, 확실히 불필요한 데이터를 일일이 가져올 필요는 없을 것 같습니다.
②모델을 적용해 봅니다.
방금 SQL이 저장된 데이터 프레임 'adult_df'를 dashDB에 구현된 R의 결정 트리 모델 'idaTree'에 적용합니다. 이것으로, dashDB안에서 엉망과 처리를 진행해 주는 것 같습니다.
결정 트리 모델에 데이터를 넣고 플로팅
#決定木モデルにデータを入れる
tr <- idaTree(INCOME~WORKCLASS+EDUCATION+EDUCATION_NUM+RACE+CAPITAL_GAIN+AGE,data=adult_df,minsplit=50,maxdepth=10,id='ID')
#プロット(絵を描いてみる&コンソールに文字で結果を出力する)
plot(tr)
print(tr)
#DBとの接続を閉じる
idaClose(con)
결과는 이쪽
짱
참고문헌
Reference
이 문제에 관하여(Bluemix에서 데이터 분석 「dashDB」× 통계 언어 「R」 Part2:브라우저로부터 가볍게 실천편), 우리는 이곳에서 더 많은 자료를 발견하고 링크를 클릭하여 보았다 https://qiita.com/azzeten/items/b782e0305285287159c1텍스트를 자유롭게 공유하거나 복사할 수 있습니다.하지만 이 문서의 URL은 참조 URL로 남겨 두십시오.
우수한 개발자 콘텐츠 발견에 전념 (Collection and Share based on the CC Protocol.)