DataRobot의 AutoML을 사용하여 공영경기의 예상 모형을 제작하다

개시하다


2020년-07-01DataRobot의 Auto ML 무료 체험부터 발매되기 때문에 실제 무료 체험을 신청했고, DataRobot의 Auto ML을 이용해 모델을 제작했다.
이번에는 시간이 별로 없기 때문에 바로 사용할 수 있는 데이터 집합으로 개인이 수집한 가는 줄무늬 데이터 집합을 활용해 예측 모델을 만들었다.
결론적으로 데이터의 예처리 등이 모두 이뤄지지 않고 2시간도 안 돼 예상 모델 제작→예측 확률 계산이 완료됐다는 점을 소개해줬으면 좋겠다는 생각이 들었다.
또 예측 모델의 정밀도와 관련해 학습 데이터세트의 특징량 설정이 너무 간단한데도 경기별 확률이 가장 높은 조합(2연단)의 1개 포인트를 100엔씩 연속 구매한 결과 회수율이 84.1%(공제율 25%여서 75% 회수율을 목표)로 어느 정도 예상 정밀도를 갖게 됐다.

예측 모델을 생성하기 전에


단계는 다음과 같습니다.
  • 학습 데이터 세트 준비
  • 모형 제작
  • 예측 확률 계산
     
  • 학습 데이터 세트 정보


    대상기간: 2011년 1월 1일~2020년 5월 31일
    객체 레이스 수: 500799
    주요 조건: 경기 전에 보트가 결장하지 않았다
    1건-2건 조합(이른바 2연단/전체 30종)을 예측하는 분류 문제다.

    DataRobot의 Auto ML을 사용하여 예측 모델 만들기


    위의 학습 데이터 세트를 CSV 파일로 준비하여 가져오기 처리를 수행합니다.

    학습 데이터 세트 업로드 중

    학습 데이터 집합의 획득이 완료되었을 때 각 특징량에 대한 요약을 표시합니다.

    목표를 직관적으로 선택할 수도 있다.

    "시작"을 눌러 공부를 시작합니다.(모델링 모드는 기본 빠른 상태를 유지합니다.)

    '모델'해시태그를 보면 각 모델이 공부하는 모습을 볼 수 있다.

    30분 정도면 공부가 끝납니다.정말 간단해요.

    개별 모델의 피쳐 양의 영향 등을 볼 수 있습니다.

    예측 데이터 세트 준비


    대상기간: 2020년 6월 1일~2020년 7월 13일
    기록수: 6119 기록
    주요 조건: 경기 전에 보트가 결장하지 않았다

    예측 모델을 사용하여 예측 확률을 계산하다


    예측 탭에서 예측 데이터 세트를 가져와 예측 값을 계산합니다.

    예측 데이터 세트 읽기

    계산 예측을 누릅니다.

    1분도 안 되어 완성되었다.결과는 다운로드 예측에서 얻을 수 있다.

    각 분류의 확률은 가로 배열의 형식으로 예측 확률을 출력한다.

    예측 확률의 검증


    각 경기 중 30종 중 가장 확률이 높은 1-2세트 조합의 2연단은 각각 100엔씩 사서 회수율과 명중률을 계산했다

    ■ 검증 결과
    객체 레이스 수: 6119
    구매조합 중 F반환으로 반환된 레이스 수:58→회수율·명중률의 분모는 61319-58=6261이다.
    수량: 1498
    환불 금액: 526130엔
    ☆회수율:84.1%/적중률:23.9%
    카누 경기는 공제율이 25%여서 75% 이상 회수할 수 있느냐가 목표였지만 84.1%는 예상보다 회수율이 좋았다.

    감상


    시간이 많지 않은 상황에서 조작 매뉴얼을 자세히 보지 않고 작업을 했지만 UI는 예상 모델 제작→예측 확률 계산을 단숨에 완성할 수 있을 정도로 알기 쉽다.
    스스로 기계 학습 모델을 만든다면, 예를 들어 유형 변수는 열 인코딩과 학습 데이터의 예처리에 상당한 시간이 걸리는 곳이기 때문에 신경 쓰지 않아도 모델을 만들 수 있다는 점에서 기쁘다.

    좋은 웹페이지 즐겨찾기