Azure ML에서 상관 행렬 만들기

5640 단어 Azure통계
「Azure Machine Learning에서 상관 행렬을 작성할 수 없는가」라는 질문이 있었으므로 해 보면 할 수 있었다.

TL;DR


  • Azure Machine Learning Studio에서 상관 행렬을 계산할 수 있습니다.
  • Statistical Functions에서 Compute Linear Correlation 을 사용하면 OK.
  • 샘플은 Cortana Intelligence Gallery: 상관 행렬 샘플 를 참조.

  • 용어 설명



    상관 행렬



    대략적으로 말하면, 다른 데이터 간의 관계의 강도를 나타내는 것.

    정확한 정의는 예를 들면 분산 공분산 행렬과 상관 행렬에 있다.

    Azure ML(Azure Machine Learning)



    Microsoft가 제공하는 기계 학습 플랫폼.

    여러가지 할 수 있는 것 같지만, 그다지 자세하지 않다.

    Azure Machine Learning

    절차



    I. 사용할 데이터 세트 선택



    Azure Machine Learning Studio에서 사용하기 쉬운 데이터로 Automobile price data (Raw)가 제공되므로 그것을 사용합니다.

    참고 : Machine learning tutorial: Create your first data science experiment in Azure Machine Learning Studio

    II. 전처리



    누락 값 처리



    Automobile price data (Raw)에는 결측값이 포함되어 있으므로 그것을 생략한다. 이번에는 결손값을 어떻게 보완할지는 주안으로 하지 않기 때문에, 단순하게 결손값이 많은 데이터나, 결손값을 포함하는 데이터를 삭제한다.

    절차는 Machine learning tutorial: Create your first data science experiment in Azure Machine Learning Studio 의 Step2와 거의 동일하다.

    1. normalized-losses 열 삭제



    Select Colums in Dataset 사용



    이어서 ...



    normalized-losses 열 이외의 데이터 검색



    2. 누락된 값을 포함하는 행 삭제



    num-of-doors, bore, stroke, horsepower, peak-rpm, price는 결측값을 포함한다. 누락 값을 포함하는 행을 삭제합니다.

    Clean Missing Data를 사용하여 실행.



    3. 수치 데이터 추출



    이번에는 문자열을 숫자로 바꾸지 않고 더미 변수를 추출합니다.

    Select Colums in Dataset을 사용합니다.



    설정은 이렇게 한다.



    이렇게하면 문자열로 구성된 행을 필터링 할 수 있습니다.



    II. 상관 행렬 계산



    Statistical Functions에서 Compute Linear Correlation 을 사용합니다. 설정은 없기 때문에 연결만.



    안전하게 출력되었다.



    III. CSV에서 다운로드



    「엑셀로 취급하고 싶지만」라는 목소리가 어딘지 모르게 들렸으므로, CSV로 출력한다.

    Data Format Conversions에서 Convert to CSV을 사용합니다. 이것도 연결할 뿐.



    마지막 ◯을 마우스 오른쪽 버튼으로 클릭하면 Download가 나타납니다.



    이것을 클릭하면 CSV 파일을 다운로드할 수 있다.

    Reference



    Cortana Intelligence Gallery: 상관 행렬 샘플

    좋은 웹페이지 즐겨찾기