Cortana Intelligence Suite 구축(5회) - Azure Machine Learning 예측 데이터 사용(서명 & 데이터 준비편)

개요


이번에는 Cortana Intelligence Suite 구축(4차)에서 출력된 도쿄 지하철 각 노선의 항행 정보 데이터와 기상청 기상 데이터를 조합하여 날씨, 요일을 바탕으로 Azure Machine Learning으로 각 노선의 지연 시간을 계산하는 기계 학습 모델을 구축하고자 한다.

미리 준비한 물건

  • Azure 가입

  • Cortana Intelligence Suite 구축(4차) 출력된 데이터
  • 단계 설정


    기상청 데이터 준비


    기상청은 과거 기상청이 관측한 모든 기상정보를 CSV 형식으로 다운로드할 수 있는 사이트를 제공했다.이번에는 이 사이트에서 다운로드한 CSV 파일과 도쿄 지하철의 항행 데이터를 조합해 보려고 한다.
  • http://www.data.jma.go.jp/gmd/risk/obsdl/index.php을 선택한 다음 장소를 선택합니다.이번에는 도쿄를 택했다.
  • 자세한 지역을 선택할 수 있기 때문에 도쿄를 검사해야 한다.전 장소를 선택할 수도 있지만 한 번에 다운로드할 수 있는 데이터의 양이 제한되어 있기 때문에 가능한 한 작은 범위와 항목을 선택하세요.
  • 내보낼 항목을 선택합니다.이번에 이용한 것은 기온, 강수량, 풍향, 풍속과 날씨다.
  • 내보낼 기간을 선택합니다.여기, Cortana Intelligence Suite 구축(4차) 에서 출력하는 기간을 선택하세요.
  • 표시 옵션은 그대로 유지되며 CSV 파일 다운로드를 클릭합니다.
  • 이렇게 하면 데이터를 이용할 수 없기 때문에 Excel로 가공한다.품질 정보, 균일 번호 열을 삭제합니다.
    날씨의 열은 숫자로 표시되기 때문에 여기에 기록되어 있다, 표와 문자열을 대체합니다.
    Before:

    After:
  • 나중에 가공된 CSV를 사용하여 데스크탑 등에 저장합니다.
  • 이대로 가면 문자화되기 때문에 수첩에서 다시 열고 문자 코드를'UTF-8'로 덮어쓰고 저장합니다.
    이렇게 하면 날씨 정보의 준비가 다 된다.
  • Azure Machine Learning 준비


    사용하기 위해서는 먼저 "경전 문호"부터 Azure Machine Learning에 서명해야 합니다.
    액세스
  • https://manage.windowsazure.com/를 클릭하고 Machine Learning을 클릭한 다음 ML 작업공간 만들기를 클릭합니다.
  • 화면 아래에 새 화면이 표시됩니다.작업공간 이름을 입력하고 일본에서 가장 가까운 "Southeast Asia"를 선택합니다.스토리지 계정을 "새 스토리지 계정 생성"으로 설정하고 필요한 스토리지 계정 이름을 입력합니다.모두 작성한 후 ML 작업공간 만들기를 선택합니다.
  • 배포를 시작합니다.약 1분에서 3분 후에 완성합니다.

    배포가 완료되면 다음 내용이 표시됩니다.
  • 이제 새로 생성된 Azure Machine Learning 환경을 선택할 수 있습니다.화살표(→)를 클릭합니다.
  • ML Studio에 로그인을 클릭합니다.
  • Microsoft Azure Machine Learning Studio 화면이 별도의 창에 표시됩니다.이로써 Azure Machine Learning 환경이 준비되었습니다.
  • Azure Machine Learning으로 예측 모델 구축


    Azure Machine Learning은 데이터 원본으로 여러 가지 선택을 준비했습니다. Azure 저장 계정, Azure SQL 데이터베이스, Azure Data Lake 등 Azure 서비스는 말할 필요도 없고 이외에도 로컬에 저장된 파일을 직접 업로드할 수 있습니다.이번에는 Cortana Intelligence Suite 구축(4차) 수출 목적지로 이용된 Azure 저장 계정을 소개하고 사전에 준비한 기상정보(weather_data.csv)를 업로드하는 방법 2개를 소개한다.

    로컬 파일

  • 화면 왼쪽 아래에 있는 + NEW를 선택합니다.
  • DATASET>FROM LOCAL FILE을 선택합니다.
  • 파일 선택을 누르고 데스크톱에서 "weather_data.csv"를 선택하십시오.확인을 클릭하여 업로드를 시작합니다.
  • 업로드가 시작되면 다음 메시지가 표시됩니다.

    이 완료되면 다음이 표시됩니다.
  • Azure 스토리지 계정


    Azure 스토리지 계정을 데이터 소스로 사용하려면 스토리지 계정 키를 미리 가져와야 합니다.
    그런 다음 Azure Machine Learning Studio에서 새 실험(Experiment)을 만듭니다. 이 실험에서 데이터 원본은 Azure 저장 계정이어야 합니다.
  • Azure Portal에서 생성된 스토리지 계정에 액세스합니다.
    Cortana Intelligence Suite 구축(4차)
  • "액세스 키"를 누르고 "스토리지 계정 이름"과 "키 1"키를 복사하여 수첩에 붙여넣습니다.
  • experiments를 클릭합니다.
    http://studio.azureml.com를 클릭하십시오.
  • 화면 왼쪽 아래에 있는 + NEW를 선택합니다.
  • Experiment를 선택하고 Blank Experiment를 클릭합니다.
  • 실험(Experiment) 화면입니다.우선 실험명이'Experiment created on<제작일>'이기 때문에 이해하기 쉬운 이름으로 바뀌었다.
  • 왼쪽에 모듈 카테고리가 표시됩니다.를 클릭하여 범주의 각 모듈을 표시합니다.Azure 스토리지 계정에 연결하려면 데이터 입력 및 내보내기 범주에서 데이터 가져오기를 선택합니다.
  • 데이터 가져오기를 가운데로 드래그합니다.화면 오른쪽에 데이터 가져오기 속성이 표시됩니다.
  • 데이터 소스를 Azure Blob Storage, Authentication Type을 Storage Account로 설정합니다.(2)에서 가져온 스토리지 계정 이름을 계정 이름에 붙여넣고, 키를 계정 키에 붙여넣습니다.
    Path to container는 에서 정의된 파일 대상 경로입니다.
    제 상황은 "tyqiita/output/result.txt"입니다.'캐시 사용'을 선택하면 Azure Machine Learning은 매번 Azure Blob Storage에서 데이터를 검색하지 않고 캐시를 저장하여 향후 구축 작업이 Azure Machine Learning에서 신속하게 처리될 수 있도록 합니다.
    Cortana Intelligence Suite 구축(4차)
  • 에 액세스할 수 있는지 확인하려면 실행 을 클릭합니다.
  • 처리가 완료되면 화면 오른쪽 위에 "Finished Running"이 표시됩니다.실제 캡처된 데이터를 보려면 가져오기 데이터를 마우스 오른쪽 버튼으로 클릭하고 결과 데이터 세트에서 시각화 를 클릭합니다.
  • 화면에 테이블이 표시됩니다.이것은 실제 포획된 데이터의 미리 보기 화면이다.열을 누르면 몇 개의 유일한 값이 있는지, 어떤 종류의 열(값, 문자열, 날짜 등)에 대한 정보를 볼 수 있습니다.
  • 데이터 준비 완료다음에 이 데이터를 이용하여 기계 학습 모형을 만들 것이다.
  • 좋은 웹페이지 즐겨찾기