DataRobot의 AutoML을 사용하여 공영경기의 예상 모형을 제작하다
개시하다
2020년-07-01DataRobot의 Auto ML 무료 체험부터 발매되기 때문에 실제 무료 체험을 신청했고, DataRobot의 Auto ML을 이용해 모델을 제작했다.
이번에는 시간이 별로 없기 때문에 바로 사용할 수 있는 데이터 집합으로 개인이 수집한 가는 줄무늬 데이터 집합을 활용해 예측 모델을 만들었다.
결론적으로 데이터의 예처리 등이 모두 이뤄지지 않고 2시간도 안 돼 예상 모델 제작→예측 확률 계산이 완료됐다는 점을 소개해줬으면 좋겠다는 생각이 들었다.
또 예측 모델의 정밀도와 관련해 학습 데이터세트의 특징량 설정이 너무 간단한데도 경기별 확률이 가장 높은 조합(2연단)의 1개 포인트를 100엔씩 연속 구매한 결과 회수율이 84.1%(공제율 25%여서 75% 회수율을 목표)로 어느 정도 예상 정밀도를 갖게 됐다.
예측 모델을 생성하기 전에
단계는 다음과 같습니다.
단계는 다음과 같습니다.
학습 데이터 세트 정보
대상기간: 2011년 1월 1일~2020년 5월 31일
객체 레이스 수: 500799
주요 조건: 경기 전에 보트가 결장하지 않았다
1건-2건 조합(이른바 2연단/전체 30종)을 예측하는 분류 문제다.
DataRobot의 Auto ML을 사용하여 예측 모델 만들기
위의 학습 데이터 세트를 CSV 파일로 준비하여 가져오기 처리를 수행합니다.
학습 데이터 세트 업로드 중
학습 데이터 집합의 획득이 완료되었을 때 각 특징량에 대한 요약을 표시합니다.
목표를 직관적으로 선택할 수도 있다.
"시작"을 눌러 공부를 시작합니다.(모델링 모드는 기본 빠른 상태를 유지합니다.)
'모델'해시태그를 보면 각 모델이 공부하는 모습을 볼 수 있다.
30분 정도면 공부가 끝납니다.정말 간단해요.
개별 모델의 피쳐 양의 영향 등을 볼 수 있습니다.
예측 데이터 세트 준비
대상기간: 2020년 6월 1일~2020년 7월 13일
기록수: 6119 기록
주요 조건: 경기 전에 보트가 결장하지 않았다
예측 모델을 사용하여 예측 확률을 계산하다
예측 탭에서 예측 데이터 세트를 가져와 예측 값을 계산합니다.
예측 데이터 세트 읽기
계산 예측을 누릅니다.
1분도 안 되어 완성되었다.결과는 다운로드 예측에서 얻을 수 있다.
각 분류의 확률은 가로 배열의 형식으로 예측 확률을 출력한다.
예측 확률의 검증
각 경기 중 30종 중 가장 확률이 높은 1-2세트 조합의 2연단은 각각 100엔씩 사서 회수율과 명중률을 계산했다
■ 검증 결과
객체 레이스 수: 6119
구매조합 중 F반환으로 반환된 레이스 수:58→회수율·명중률의 분모는 61319-58=6261이다.
수량: 1498
환불 금액: 526130엔
☆회수율:84.1%/적중률:23.9%
카누 경기는 공제율이 25%여서 75% 이상 회수할 수 있느냐가 목표였지만 84.1%는 예상보다 회수율이 좋았다.
감상
시간이 많지 않은 상황에서 조작 매뉴얼을 자세히 보지 않고 작업을 했지만 UI는 예상 모델 제작→예측 확률 계산을 단숨에 완성할 수 있을 정도로 알기 쉽다.
스스로 기계 학습 모델을 만든다면, 예를 들어 유형 변수는 열 인코딩과 학습 데이터의 예처리에 상당한 시간이 걸리는 곳이기 때문에 신경 쓰지 않아도 모델을 만들 수 있다는 점에서 기쁘다.
Reference
이 문제에 관하여(DataRobot의 AutoML을 사용하여 공영경기의 예상 모형을 제작하다), 우리는 이곳에서 더 많은 자료를 발견하고 링크를 클릭하여 보았다
https://qiita.com/avi_chika/items/7785816220ae080db64c
텍스트를 자유롭게 공유하거나 복사할 수 있습니다.하지만 이 문서의 URL은 참조 URL로 남겨 두십시오.
우수한 개발자 콘텐츠 발견에 전념
(Collection and Share based on the CC Protocol.)
위의 학습 데이터 세트를 CSV 파일로 준비하여 가져오기 처리를 수행합니다.
학습 데이터 세트 업로드 중
학습 데이터 집합의 획득이 완료되었을 때 각 특징량에 대한 요약을 표시합니다.
목표를 직관적으로 선택할 수도 있다.
"시작"을 눌러 공부를 시작합니다.(모델링 모드는 기본 빠른 상태를 유지합니다.)
'모델'해시태그를 보면 각 모델이 공부하는 모습을 볼 수 있다.
30분 정도면 공부가 끝납니다.정말 간단해요.
개별 모델의 피쳐 양의 영향 등을 볼 수 있습니다.
예측 데이터 세트 준비
대상기간: 2020년 6월 1일~2020년 7월 13일
기록수: 6119 기록
주요 조건: 경기 전에 보트가 결장하지 않았다
예측 모델을 사용하여 예측 확률을 계산하다
예측 탭에서 예측 데이터 세트를 가져와 예측 값을 계산합니다.
예측 데이터 세트 읽기
계산 예측을 누릅니다.
1분도 안 되어 완성되었다.결과는 다운로드 예측에서 얻을 수 있다.
각 분류의 확률은 가로 배열의 형식으로 예측 확률을 출력한다.
예측 확률의 검증
각 경기 중 30종 중 가장 확률이 높은 1-2세트 조합의 2연단은 각각 100엔씩 사서 회수율과 명중률을 계산했다
■ 검증 결과
객체 레이스 수: 6119
구매조합 중 F반환으로 반환된 레이스 수:58→회수율·명중률의 분모는 61319-58=6261이다.
수량: 1498
환불 금액: 526130엔
☆회수율:84.1%/적중률:23.9%
카누 경기는 공제율이 25%여서 75% 이상 회수할 수 있느냐가 목표였지만 84.1%는 예상보다 회수율이 좋았다.
감상
시간이 많지 않은 상황에서 조작 매뉴얼을 자세히 보지 않고 작업을 했지만 UI는 예상 모델 제작→예측 확률 계산을 단숨에 완성할 수 있을 정도로 알기 쉽다.
스스로 기계 학습 모델을 만든다면, 예를 들어 유형 변수는 열 인코딩과 학습 데이터의 예처리에 상당한 시간이 걸리는 곳이기 때문에 신경 쓰지 않아도 모델을 만들 수 있다는 점에서 기쁘다.
Reference
이 문제에 관하여(DataRobot의 AutoML을 사용하여 공영경기의 예상 모형을 제작하다), 우리는 이곳에서 더 많은 자료를 발견하고 링크를 클릭하여 보았다
https://qiita.com/avi_chika/items/7785816220ae080db64c
텍스트를 자유롭게 공유하거나 복사할 수 있습니다.하지만 이 문서의 URL은 참조 URL로 남겨 두십시오.
우수한 개발자 콘텐츠 발견에 전념
(Collection and Share based on the CC Protocol.)
예측 탭에서 예측 데이터 세트를 가져와 예측 값을 계산합니다.
예측 데이터 세트 읽기
계산 예측을 누릅니다.
1분도 안 되어 완성되었다.결과는 다운로드 예측에서 얻을 수 있다.
각 분류의 확률은 가로 배열의 형식으로 예측 확률을 출력한다.
예측 확률의 검증
각 경기 중 30종 중 가장 확률이 높은 1-2세트 조합의 2연단은 각각 100엔씩 사서 회수율과 명중률을 계산했다
■ 검증 결과
객체 레이스 수: 6119
구매조합 중 F반환으로 반환된 레이스 수:58→회수율·명중률의 분모는 61319-58=6261이다.
수량: 1498
환불 금액: 526130엔
☆회수율:84.1%/적중률:23.9%
카누 경기는 공제율이 25%여서 75% 이상 회수할 수 있느냐가 목표였지만 84.1%는 예상보다 회수율이 좋았다.
감상
시간이 많지 않은 상황에서 조작 매뉴얼을 자세히 보지 않고 작업을 했지만 UI는 예상 모델 제작→예측 확률 계산을 단숨에 완성할 수 있을 정도로 알기 쉽다.
스스로 기계 학습 모델을 만든다면, 예를 들어 유형 변수는 열 인코딩과 학습 데이터의 예처리에 상당한 시간이 걸리는 곳이기 때문에 신경 쓰지 않아도 모델을 만들 수 있다는 점에서 기쁘다.
Reference
이 문제에 관하여(DataRobot의 AutoML을 사용하여 공영경기의 예상 모형을 제작하다), 우리는 이곳에서 더 많은 자료를 발견하고 링크를 클릭하여 보았다
https://qiita.com/avi_chika/items/7785816220ae080db64c
텍스트를 자유롭게 공유하거나 복사할 수 있습니다.하지만 이 문서의 URL은 참조 URL로 남겨 두십시오.
우수한 개발자 콘텐츠 발견에 전념
(Collection and Share based on the CC Protocol.)
시간이 많지 않은 상황에서 조작 매뉴얼을 자세히 보지 않고 작업을 했지만 UI는 예상 모델 제작→예측 확률 계산을 단숨에 완성할 수 있을 정도로 알기 쉽다.
스스로 기계 학습 모델을 만든다면, 예를 들어 유형 변수는 열 인코딩과 학습 데이터의 예처리에 상당한 시간이 걸리는 곳이기 때문에 신경 쓰지 않아도 모델을 만들 수 있다는 점에서 기쁘다.
Reference
이 문제에 관하여(DataRobot의 AutoML을 사용하여 공영경기의 예상 모형을 제작하다), 우리는 이곳에서 더 많은 자료를 발견하고 링크를 클릭하여 보았다 https://qiita.com/avi_chika/items/7785816220ae080db64c텍스트를 자유롭게 공유하거나 복사할 수 있습니다.하지만 이 문서의 URL은 참조 URL로 남겨 두십시오.
우수한 개발자 콘텐츠 발견에 전념 (Collection and Share based on the CC Protocol.)