Signate 10th_Beginner 한정 대회 되돌아보기
소개
데이터 분석 공부를 위해 참전했다. 문장은 망설인다고 생각됩니다만, 좋으면 읽어 보세요.
분석 환경
Google 공동체
결과
좋은 점
최종 순위는 2위(178명 중). 사용 모델은 LGM(fold-out).
대회 내용에 대해
개요
좋은 점
최종 순위는 2위(178명 중). 사용 모델은 LGM(fold-out).
대회 내용에 대해
개요
대처의 거친 흐름
shape, info, describe, head로 전체 파악.
히스토그램, 산점도, 상자 수염 다이어그램, 바이올린 플롯에서 전체 분포 파악.
카테고리 변수는 전체, 클래스마다 상대 도수 확인.
마지막으로 target과의 상관관계를 확인.
카테고리 변수를 확인할 때, 클래스마다 가장 빈번한 조합이 있었기 때문에 「{}_{}_{}」라고 하는 형태로 카테고리 변수 작성.
학습 데이터, 테스트 데이터를 한 번 맞추어 양적 변수, 카테고리 변수로 클러스터를 작성.
카테고리 변수를 target encoding으로 수치화( (multilabel화)의 방법과 통상의 방법).
위 모델의 앙상블 구현 (버깅, 스태킹)
이번 반성점
좋은 점
미래에 대해
마지막으로
끝까지 읽어 주셔서 감사합니다. 다음 게시물에 좀 더 읽기 쉽게 하고 싶습니다. 생각의 문장화도 가능하다고 생각합니다.
참고
Reference
이 문제에 관하여(Signate 10th_Beginner 한정 대회 되돌아보기), 우리는 이곳에서 더 많은 자료를 발견하고 링크를 클릭하여 보았다 https://qiita.com/knysmchr/items/1d464117d3fcdecd09c4텍스트를 자유롭게 공유하거나 복사할 수 있습니다.하지만 이 문서의 URL은 참조 URL로 남겨 두십시오.
우수한 개발자 콘텐츠 발견에 전념 (Collection and Share based on the CC Protocol.)