PAI 프로그래밍으로 필요 없는 머신러닝을 시도해 보세요!

최근 PAI에서의 심층학습 등에 대한 투고가 증가했습니다. 보시겠습니까?또 전통적인 기계 학습 상황에서는 어떻게 될까.이번 기사는 전통적인 기계학습에 초점을 맞추고 있습니다. PAI의 기계학습 방법을 소개해 드리겠습니다.
머신러닝 하면 Python과 R 언어를 사용하고 복잡한 데이터 예처리, 예측 모델 학습 등 인상이 많잖아요.사실 세계의 많은 공공 클라우드 서비스와 마찬가지로 머신러닝의 클라우드 서비스를 활용하면 지금까지의 번잡한 업무가 수월해진다.
그럼 이번에는 Alibaba Cloud의 머신러닝 플랫폼(PAI)에 대해 여러 가지 상세한 편리한 기능을 소개해 드리겠습니다.
데이터 세트 및 과제 정보
이번에 공개된 유명한 데이터 집합「Titanic : Machine Learning from Disaster」을 사용했다.또한class,age,sex3개의승객정보를특징량으로서바이브d(생존여부)의예측을작성하는것이이번과제다.
항목
함의
세부 정보
class
티켓 클래스
1st: 상위 (부자)
2nd: 중급(일반)
3rd: 하층(노동계급)
선원
age
나이.
어른, 어린이
sex
성별
남성, 여성
survived
생존 여부
0: 죽음, 1: 생존

실험의 구성도
이번 실험은 주로 데이터 도입, 통계 해석, 모델 교육과 예측, 모델 평가와 분석 네 부분으로 구성된다.나는 순서대로 각자의 상세한 상황을 설명하고 싶다.
  • Step1: 데이터 가져오기
  • 이번 데이터 원본은 아래 그림에서 보듯이 Aliba Cloud 빅데이터계의 주력 클라우드 제품인 MaxCompute에서 데이터 집합을 읽는 형식으로 가져온 것이지만 실제로는 MaxCompute 이외에도 OSS와 RDS의 데이터를 동기화하는 방법을 지원하기 때문에 PAI와 각 제품의 긴밀한 협력을 통해데이터 집합을 가져오는 것은 매우 유용하다.PAI가 나오면 꼭 한번 해보세요.
  • Step2: 통계 분석
  • ① 이산화 값 피쳐 분석(Discrete Value Feature Analysis)
    데이터 집합의 특징량은 모두 이산값이기 때문에'이산값 특징 분석'과의 조합을 사용했다.다음 그림에서 보듯이'기능 열'에서class,age,sex를 선택하고'라벨 열'에서survived를 지정합니다.이렇게 하면,class,age,sex와 각각의 속성으로survived (즉, 생존 여부) 를 해석할 수 있습니다.

    "이산값 특징 분석"조합을 마우스 오른쪽 단추로 클릭하고 "분석 보고서 보기"항목을 누르면 다음 그림과 같이class,age,sex 및 각자의 분석 결과가 바로 표시됩니다.

    ② 필터링 및 매핑
    예를 들어 아이의 생존 상황에 신경을 쓴다면'여과와 반사'의 조합을 사용할 수 있다.다음 그림에서 보듯이 "매핑 규칙"에서 sex,class,survived를 선택하고 "Filter Conditions"에서 age="child"를 설정하면 됩니다.
    그런 다음 필터 및 매핑을 마우스 오른쪽 버튼으로 클릭하고 ViewData 항목을 클릭하면 아이의 생존 상태 요약 정보를 확인할 수 있습니다.

  • Step3: 훈련 및 예측 모델
  • 이번에 사용된 알고리즘은'Naive Bayes'와'Random Forest'두 가지다.각각 예측 모델을 구축하고 모델의 평가를 하며 가장 좋은 모델을 선정하는 것이 목적이다.
    우선 훈련을 하기 전에 스플릿 조합의 스플릿 by Ratio라는 간단한 유지 방법을 이용하여 데이터 집합을 훈련 데이터 집합과 테스트 데이터 집합으로 분리한다.분할할 때 "Random Seed"를 지정할 수도 있습니다.
    다음으로'Naive Bayes'와'Random Forest'의 고급 설정에서 각각class,age,sex를 3개의 특징량으로'Feature Column'으로,survived를'Label Column'으로 지정합니다.
    마지막으로 "Prediction_1"과 "Prediction_2"의 "Reserved Output Column"설정 항목에서survived를 포함하여 모두 4개의 필드를 선택하십시오.다른 항목 설정은 기본 설정을 유지하면 됩니다.
    상술한 모든 조합의 상세한 설정은 다음과 같다.
  • Step4: 모델의 평가 및 분석
  • 이진 분류 평가
    생존 여부는 2진 분류 영역에 속하기 때문에'2진 분류 평가'와 조합을 사용했다.방금 설명한 통계 분석 조합과 마찬가지로 바이너리 분류 평가를 마우스 오른쪽 버튼으로 클릭하고 Evaluation Report 항목을 클릭하면 다음 그림과 같이 ROC 커브와 PR 커브 등의 평가 지표가 바로 나타납니다.
    Naive Bayes
    Random Forest
           AUC Score
    0.7341
    0.7564
              F1 Score
    0.6259
    0.6319

    마지막
    여러분은 어떠십니까? 위에서 말한 바와 같이 PAI 내장을 활용한 조합만으로도 원본 코드를 쓰지 않고 기계 학습을 순조롭게 실시할 수 있습니다.PAI가 출시되면 꼭 체험해 보세요.

    좋은 웹페이지 즐겨찾기