데이터 과학 경연 도전 TianChi!(실천편)

4621 단어 TianChi기계 학습
지난번에 TianChi소개편의 이야기를 했는데 이번에는 실제 내용을 섞어서 데이터의 다운로드, 예처리, 훈련, 예측, 제출의 일련의 절차를 소개하고 싶습니다.
경기 개황
이번에 열거한 예는'Offline to Online (O2O) Prediction of Coupon Redemption'입니다. 우선 제가 경기의 배경을 간단하게 설명하는 것을 허락해 주십시오.
이른바 O2O(온라인에서 오프라인까지)는 온라인에서 오프라인으로 손님을 보내기 위한 인터넷 마케팅의 조치다.예를 들어 온라인으로 할인 쿠폰을 발급하고 상품 광고와 전단지를 배포하는 것은 상용적인 수단이다.
하지만 이런 마케팅 조치에는 과제가 있다.한편으로는 불특정 다수의 사용자에게 고소할 수 있고, 다른 한편으로는 고객에게는 원하는 쿠폰을 받으면 당연히 만족하지만, 원하지 않으면 쿠폰만 많이 보내면 역효과가 날 수 있다.
이를 위해 이번 경쟁은 O2O 현실경치에 관한 데이터팀이 제공하고 고객이 할당된 쿠폰 지정 기간 중(15일 이내) 오프라인 이용률을 얼마나 예측할 수 있는 모델을 모집합니다!
  • 데이터 개요
  • 이번 훈련용 데이터 세트로 주어지는 것은 오프라인 쿠폰의 사용 상황 데이터와 온라인 쿠폰의 수령 상황 데이터다.
    2016/01/01~2016/06/30 반년간 오프라인 쿠폰 사용 현황 데이터(ccf_offline_stage1_train.zip)
    항목
    설명
    User_id
    사용자 ID
    Merchant_id
    점포 ID
    Coupon_id
    쿠폰 ID. ※비어 있으면 쿠폰을 사용하지 않았다는 뜻이다.
    Discount_rate
    두 가지 유형이 있습니다.
    0x:y(x원 이상 구매 시 y원 OFF.예: 100:22000:40)
    Distance
    사용자 집에서 가게까지의 거리
    Date_received
    쿠폰 수령 날짜
    Date
    쿠폰 사용 날짜
    2016/01/01~2016/06/30 반년 동안 온라인 쿠폰 수령 현황 데이터(ccf_online_stage1_train.zip)
    항목
    설명
    User_id
    사용자 ID
    Merchant_id
    점포 ID
    Coupon_id
    쿠폰 ID. ※비어 있으면 쿠폰을 사용하지 않았다는 뜻이다.
    Discount_rate
    두 가지 유형이 있습니다.
    0x:y(x원 이상 구매 시 y원 OFF.예: 100:22000:40)
    Action
    0: 그냥 클릭
    1: 온라인 구매
    2: 쿠폰 수령
    Date_received
    쿠폰 수령 날짜
    Date
    쿠폰 사용 날짜
    또한 테스트 데이터 세트로 2016/07/01부터 2016/07/30까지 한 달 이내의 오프라인 데이터로 트레이닝 데이터와 달리 쿠폰 사용 시 날짜 항목('Date')이 포함되지 않음을 확인할 수 있습니다.
    항목
    설명
    User_id
    사용자 ID
    Merchant_id
    점포 ID
    Coupon_id
    쿠폰 ID. ※비어 있으면 쿠폰을 사용하지 않았다는 뜻이다.
    Discount_rate
    두 가지 유형이 있습니다.
    0x:y(x원 이상 구매 시 y원 OFF.예: 100:22000:40)
    Distance
    사용자 집에서 가게까지의 거리
    Date_received
    쿠폰 수령 날짜
  • 평가 방법:
  • 2016년 7월 각 쿠폰을 받을 때부터 15일 이내에 쿠폰 이용률을 요구한다.최종 평가 포인트의 계산 방법으로 각 쿠폰의 사용률에 따라 AUC 값(ROC 곡선 아래의 면적)을 계산하여 모든 쿠폰의 AUC 값의 평균값(0과 1 사이)이 됩니다.평균치(0.5 이상)가 크면 예측 정밀도가 높다는 뜻이다.
    ※ AUC에 대한 자세한 내용은 여기서 생략하고 ROC 커브와 AUC에 대한 설명은 참조하시기 바랍니다Wiki.
  • 데이터 제출 형식
  • User_id
    사용자 ID
    Coupon_id
    쿠폰 ID
    Date_received
    쿠폰 수령 날짜
    Probability
    쿠폰 사용률(15일 이내)
    실행 방법:
  • 사전 준비:
  • 먼저 다음 그림과 같이 데이터 세트를 다운로드하기 전에 서명 작업을 수행해야 합니다.

    원본 위치 선택 목록에서 항목을 선택하고 다음을 클릭합니다.

    이렇게 하면 너는 데이터 집합을 다운로드할 수 있다.
  • 세부내용 실행
  • 튜토리얼의 원본 코드는 아래의jupyther notebook을 참조하십시오.
    ※ 본 강좌는 ccf_offline_stage1_train.csv만 사용하여 특징 추출을 진행하여 진일보한 개선 방안으로 ccf_onfline_stage1_train.csv를 연결하여 새로운 특징량을 만드는 것으로 볼 수 있습니다.권적신경망을 통해 자동으로 특징량을 얻는 것도 고려할 수 있다.
  • 제출 절차
  • 마지막으로 다음 그림과 같이 예측 결과 (csv 파일) 를 제출할 수 있습니다.

    모두들 어떻게 생각하십니까? 이상은 경기의 일련입니다.실제로 Tianchi가 공개한 각종 경기는 아직 많기 때문에 데이터 과학자에 구애받지 않고 기계 학습을 시작한 사람이라도 반드시 Tianchi를 제공하는 데이터를 이용하여 연습을 하세요.더 많은 사람들의 참가를 진심으로 기대합니다!
    마지막으로 TianChi 시리즈의 최종회데이터 처리 편도 조만간 공개될 예정이니 계속 잘 부탁드립니다.

    좋은 웹페이지 즐겨찾기