Signate 10th_Beginner 한정 대회 되돌아보기


소개


데이터 분석 공부를 위해 참전했다. 문장은 망설인다고 생각됩니다만, 좋으면 읽어 보세요.

  • SIGNATE 제10회_베이너 한정판
  • 분석 환경
  • 결과
  • 대회 내용
  • 대처 내용
  • 이번 반성점

  • 분석 환경



    Google 공동체

    결과



    좋은 점
    최종 순위는 2위(178명 중). 사용 모델은 LGM(fold-out).

    대회 내용에 대해



    개요



  • 작업 휴대폰 사양에서 휴대폰 가격대를 분류하는 다중 클래스 분류
  • 데이터 학습 데이터 : 1200, 테스트 데이터 : 800 테이블 데이터
  • 평가 지표 F1macro

  • 대처의 거친 흐름



  • EDA 설명 변수는 모두 양적 변수로 되어 있었기 때문에 카테고리 변수가 될 수 있는 것은 카테고리 변수화.

    shape, info, describe, head로 전체 파악.
    히스토그램, 산점도, 상자 수염 다이어그램, 바이올린 플롯에서 전체 분포 파악.
    카테고리 변수는 전체, 클래스마다 상대 도수 확인.
    마지막으로 target과의 상관관계를 확인.
  • 특징량 작성 상관수가 극히 낮은 변수의 삭제.
    카테고리 변수를 확인할 때, 클래스마다 가장 빈번한 조합이 있었기 때문에 「{}_{}_{}」라고 하는 형태로 카테고리 변수 작성.
    학습 데이터, 테스트 데이터를 한 번 맞추어 양적 변수, 카테고리 변수로 클러스터를 작성.
    카테고리 변수를 target encoding으로 수치화( (multilabel화)의 방법과 통상의 방법).
  • 학습 및 예측 로지스틱 회귀, K 이웃 방법, 지원 벡터 머신, 결정 트리, 랜덤 포리스트, XGBoost, LightGBM으로 모델 구축(fold-out, crossvalidation).
    위 모델의 앙상블 구현 (버깅, 스태킹)

  • 이번 반성점



  • github를 사용하지 않았고 파일도 하나로 작업하고 있었기 때문에 쓸데없는 동작이 많아졌습니다.
  • CV로 target encoding하는 방법으로 망설여 버렸기 때문에, fold-out으로 강제로 진행해 버렸다.
  • Pytorch를 이해하지 못했기 때문에 TabNet은 시도 할 수 없습니다.

  • 좋은 점



  • 상기에 쓰지 않은 것을 포함해 여러가지 시험할 수 있었다.
  • TabNet은 사용하기 전까지는 파악할 수 없었지만, 논문이나 Youtube의 해설 동영상을 보고 배울 수 있었다.

  • 미래에 대해



  • 이번에 잘 가지 않았던 곳을 공부해, 사용할 수 있도록 한다.
  • Git에 대해 공부한다.
  • kaggle 대회에 참가해보십시오.

  • 마지막으로



    끝까지 읽어 주셔서 감사합니다. 다음 게시물에 좀 더 읽기 쉽게 하고 싶습니다. 생각의 문장화도 가능하다고 생각합니다.

    참고



  • Kaggle에서 이기는 데이터 분석 기술 ( htps : // 와와 rds 였던 s 시엔세. 코 m / targe t-enko ぢ g ぉ r m l chi-c ぁ s-c ぁ )
  • 전처리 대전( htps : // 기효. jp/보오 k/2019/978ー4ー297ー10843ー4 )
  • mechanisms-of-action-moa-tutorial( htps : // 기효. jp/보오 k/2018/978ー4ー7741ー9647ー3 )
  • Target Encoding For Multi-Class Classification( htps //w w. 꺄gぇ. 코 m / 시나 mhd 9 / 엄청 SMS )
  • 좋은 웹페이지 즐겨찾기