AutoML(VARISTA) 사용 시도

  • 제조업 출신 데이터 과학자가 보낸 글
  • 이번에는 AutoML(VARISTA)을 사용해 기록으로 남겼다.
  • Varista란?


    VARISTA는 기계 학습을 효과적으로 하기 위한 플랫폼이다.즉, AutoML입니다.DataRobot과dotData와 같습니다.
    후자의 두 개의 AutoML은 유료이지만 VARISTA는 일부 기능을 무료로 사용할 수 있다.

    기본 프로세스


    GUI는 모두 완성할 수 있기 때문에 상세한 설명(지원도 포함) 없이 간단하게 다음과 같이 정리할 수 있다.
  • 데이터 세트 준비(샘플 데이터도 준비)
  • 구축할 모델 생성
  • 구축할 수 있는 모델이 결정되었습니다(무료 방안만 확인)
  • XGBoost
  • lightGBM
  • catboost
  • scikit-learn(일부)
  • 요금 방안은 다른 모델을 더 많이 사용할 수 있다.
  • 모형학습
  • 학습 모델의 평가
  • 기타
  • 하이퍼매개변수
  • 사용 가능

    실제 사용 방법


    데이터 업로드


    이번에는 샘플 타이타닉 호의 데이터를 올렸다.
    무료 버전에서는 100MB 정도의 데이터 세트라면 이용할 수 있다.
    프로젝트는 하나만 할 수 있기 때문에 정말 시도하는 느낌이에요.

    업로드된 데이터에 대해 다음과 같은 느낌으로 각 열의 데이터 유형, 부족한 값과 사용 가능 여부를 간단하게 확인하고 선택할 수 있다.

    모형의 구축


    다음 구축할 모델을 생성합니다.무료 방안에서 견본은 몇 개의 모형을 만들었다.
    맨 위에 있는'라이트 GBM classification'은 이번에 제작된 모델이고, 나머지는 템플릿으로 준비한 모델이다.

    모델을 구축할 때 모델을 구축하는 목적(회귀, 분류)을 선택하고 예처리와 검증 데이터의 분할 방법 등을 선택할 수 있다.

    이 밖에 알고리즘은 고수치 조절 방법을 선택할 수 있다.
    격자 검색, 랜덤 검색, 베이스 최적화(Hyperropt, optuna)를 선택할 수 있습니다.
    하이파라의 수색 범위 등도 선택할 수 있다.

    모드 학습


    그리고 모델을 선택해 공부한다.

    모델 구축에 대한 평가


    구축된 모델의 내용을 보고 평가하다.
    분석할 수 있는 항목으로서 어느 정도 완비된 인상을 줄 수 있다.



    기타


    구축된 모델의 높은 수치 매개 변수도yaml 파일을 통해 얻을 수 있습니다.
    그러나python이 같은 모델을 완전히 재현할 수 있는지 확인하지 못했다.

    최후


    끝까지 읽어주셔서 감사합니다.
    이번에는 AutoML(VARISTA)을 사용해 노트로 정리해봤다.
    유료 버전을 시험해 본 적이 없어서 모르겠는데, 모델의 종류와 관련해서는 DataRobot이 가장 많은 것 같아요.
    또한dotData의 특징은 공사 자동화의 부분이다.
    상기 두 개의 오토ML 도구에 대해 VARISTA는 어떤 우세로 싸울 계획인지, 무료 버전에서는 볼 수 없기 때문에 이런 것들을 알게 되면 선택의 후보가 되지 않을까 싶습니다.
    다른 한편에서는 무료라도 간단히 사용해 볼 수 있어서 다행이다.

    좋은 웹페이지 즐겨찾기