DataRobot의 AutoML을 사용하여 공영경기의 예상 모형을 제작하다

개시하다

2020년-07-01DataRobot의 Auto ML 무료 체험부터 발매되기 때문에 실제 무료 체험을 신청했고, DataRobot의 Auto ML을 이용해 모델을 제작했다.
이번에는 시간이 별로 없기 때문에 바로 사용할 수 있는 데이터 집합으로 개인이 수집한 가는 줄무늬 데이터 집합을 활용해 예측 모델을 만들었다.
결론적으로 데이터의 예처리 등이 모두 이뤄지지 않고 2시간도 안 돼 예상 모델 제작→예측 확률 계산이 완료됐다는 점을 소개해줬으면 좋겠다는 생각이 들었다.
또 예측 모델의 정밀도와 관련해 학습 데이터세트의 특징량 설정이 너무 간단한데도 경기별 확률이 가장 높은 조합(2연단)의 1개 포인트를 100엔씩 연속 구매한 결과 회수율이 84.1%(공제율 25%여서 75% 회수율을 목표)로 어느 정도 예상 정밀도를 갖게 됐다.

예측 모델을 생성하기 전에

단계는 다음과 같습니다.

학습 데이터 세트 준비

모형 제작

예측 확률 계산
　

학습 데이터 세트 정보

대상기간: 2011년 1월 1일~2020년 5월 31일
객체 레이스 수: 500799
주요 조건: 경기 전에 보트가 결장하지 않았다
1건-2건 조합(이른바 2연단/전체 30종)을 예측하는 분류 문제다.

DataRobot의 Auto ML을 사용하여 예측 모델 만들기

위의 학습 데이터 세트를 CSV 파일로 준비하여 가져오기 처리를 수행합니다.

학습 데이터 세트 업로드 중

학습 데이터 집합의 획득이 완료되었을 때 각 특징량에 대한 요약을 표시합니다.

목표를 직관적으로 선택할 수도 있다.

"시작"을 눌러 공부를 시작합니다.(모델링 모드는 기본 빠른 상태를 유지합니다.)

'모델'해시태그를 보면 각 모델이 공부하는 모습을 볼 수 있다.

30분 정도면 공부가 끝납니다.정말 간단해요.

개별 모델의 피쳐 양의 영향 등을 볼 수 있습니다.

예측 데이터 세트 준비

대상기간: 2020년 6월 1일~2020년 7월 13일
기록수: 6119 기록
주요 조건: 경기 전에 보트가 결장하지 않았다

예측 모델을 사용하여 예측 확률을 계산하다

예측 탭에서 예측 데이터 세트를 가져와 예측 값을 계산합니다.

예측 데이터 세트 읽기

계산 예측을 누릅니다.

1분도 안 되어 완성되었다.결과는 다운로드 예측에서 얻을 수 있다.

각 분류의 확률은 가로 배열의 형식으로 예측 확률을 출력한다.

예측 확률의 검증

각 경기 중 30종 중 가장 확률이 높은 1-2세트 조합의 2연단은 각각 100엔씩 사서 회수율과 명중률을 계산했다

■ 검증 결과
객체 레이스 수: 6119
구매조합 중 F반환으로 반환된 레이스 수:58→회수율·명중률의 분모는 61319-58=6261이다.
수량: 1498
환불 금액: 526130엔
☆회수율:84.1%/적중률:23.9%
카누 경기는 공제율이 25%여서 75% 이상 회수할 수 있느냐가 목표였지만 84.1%는 예상보다 회수율이 좋았다.

감상

시간이 많지 않은 상황에서 조작 매뉴얼을 자세히 보지 않고 작업을 했지만 UI는 예상 모델 제작→예측 확률 계산을 단숨에 완성할 수 있을 정도로 알기 쉽다.
스스로 기계 학습 모델을 만든다면, 예를 들어 유형 변수는 열 인코딩과 학습 데이터의 예처리에 상당한 시간이 걸리는 곳이기 때문에 신경 쓰지 않아도 모델을 만들 수 있다는 점에서 기쁘다.

Reference

이 문제에 관하여(DataRobot의 AutoML을 사용하여 공영경기의 예상 모형을 제작하다), 우리는 이곳에서 더 많은 자료를 발견하고 링크를 클릭하여 보았다 https://qiita.com/avi_chika/items/7785816220ae080db64c

텍스트를 자유롭게 공유하거나 복사할 수 있습니다.하지만 이 문서의 URL은 참조 URL로 남겨 두십시오.

우수한 개발자 콘텐츠 발견에 전념 (Collection and Share based on the CC Protocol.)

좋은 웹페이지 즐겨찾기

개발자 우수 사이트 수집

개발자가 알아야 할 필수 사이트 100선 추천 우리는 당신을 위해 100개의 자주 사용하는 개발자 학습 사이트를 정리했습니다