Bluemix에서 데이터 분석 「dashDB」× 통계 언어 「R」 Part2:브라우저로부터 가볍게 실천편

Part1(↓ URL)의 놀이편에 이어 Part2입니다. 가볍게 만져 보았습니다.
h tp : // 쿠이타. 코 m / 아제 텐 / ms / 바 37, 865, b120, 296c

Part2에서는, 인간의 나이, 혼인, 수입 등등의 데이터를 사용해 결정 나무 분석을 해 보았습니다.


간단한 흐름


  • dashDB에 로그인하여 브라우저에서 사용할 수있는 R Studio에 들어갑니다
  • R의 스크립트를 작성한다 (스크립트의 내용으로서는 「전용 라이브러리 읽어들인→dashDB에 접속→처리를 고드름 코딩」.이상!)
  • 스크립트를 달리다!

  • 그럼 해보자.

    브라우저에서 R 환경에 로그인



    왼쪽 창의 Analytics에서 R Scripts를 클릭합니다. 에서 R Studio를 클릭합니다.


    로그인 화면이 나오므로 dashDB에 로그인하는 데 필요한 ID와 PW를 입력합니다.


    그러면 그처럼 멋진 화면이 나옵니다. 이것이 R Studio 환경입니다.

    R 스크립트 작성



    (1) 전용 라이브러리 로드 → dashDB에 접속

    dashDB의이 R 기능 (정식적으로 In-DB Analytics)을 사용하면,
    DB의 데이터를 클라이언트측에 가져오지 않고 DB 안에서 R을 사용한 분석을 할 수 있다는 것이 기쁜 포인트입니다. 그러므로 이를 위해 라이브러리 "ibmdbR"을 읽어야 합니다.

    그런 다음 DB에 연결합니다. 본래는 DSN을 스스로 설정할 필요가 있습니다만, WEB 브라우저로부터 하면 그것이 필요없는 것 같다.

    dashDB용 라이브러리를 읽고 DB에 연결
    #ライブラリを読み込む
    library(ibmdbR)
    
    #DBに接続する
    con <- idaConnect('BLUDB')
    idaInit(con)
    

    (2) 처리를 고르게 코딩
    ① ADULT 테이블의 내용을 데이터 프레임이라는 상자에 넣습니다.

    데이터 프레임에 테이블 내용을 넣습니다.
    #テーブルをデータフレームに入れる
    adult_df <- ida.data.frame('adult')
    
    #データフレームの中身を確認する
    adult_df
    

    그래서 내용을 확인하면 이런 출력입니다.
    SELECT "ID","AGE","WORKCLASS","FNLWGT","EDUCATION","EDUCATION_NUM","MARITAL_STATUS","OCCUPATION","RELATIONSHIP","RACE","SEX","CAPITAL_GAIN","CAPITAL_LOSS","HOURS_PER_WEEK","INCOME"FROM adult

    과연. 데이터 자체가 들어 있는 것이 아니라 SQL이 정의된 것 같습니다.
    이것이라고 하면, 데이터를 클라이언트측에 가져오는 것이 아니라 SQL을 던진다는 것이 되기 때문에, 확실히 불필요한 데이터를 일일이 가져올 필요는 없을 것 같습니다.

    ②모델을 적용해 봅니다.
    방금 SQL이 저장된 데이터 프레임 'adult_df'를 dashDB에 구현된 R의 결정 트리 모델 'idaTree'에 적용합니다. 이것으로, dashDB안에서 엉망과 처리를 진행해 주는 것 같습니다.

    결정 트리 모델에 데이터를 넣고 플로팅
    #決定木モデルにデータを入れる
    tr <- idaTree(INCOME~WORKCLASS+EDUCATION+EDUCATION_NUM+RACE+CAPITAL_GAIN+AGE,data=adult_df,minsplit=50,maxdepth=10,id='ID')
    
    #プロット(絵を描いてみる&コンソールに文字で結果を出力する)
    plot(tr)
    print(tr)
    
    #DBとの接続を閉じる
    idaClose(con)
    

    결과는 이쪽






    참고문헌

    좋은 웹페이지 즐겨찾기