Kaggle의 Kernel 기법 정리 [테이블 시계열 데이터편]

이 기사에서는 Kaggle 대회에서 데이터 유형별 정석과 같은 것을 작성합니다. 또한 대회 관계없이 정밀도가 나오지 않을 때의 힌트 등이되면 좋다고 생각합니다.

이번에는 다음과 같은 비교 데이터 세트를 살펴 보겠습니다. 대회의 경우는 Kernel이 없기 때문에, Notebooks를 정리해 가려고 생각합니다.
Predict Future Sales
Avocado Prices

1. Predict Future Sales

유형:회귀
개요 : 가게의 이름, 상품의 이름 등으로부터 다음 달 1 개월에서의 상품의 매출 개수를 예측

1.1 Time series Basics : Exploring traditional TS

수행한 분석
결과

특징 량의 히스토그램 시각화
카테고리에 편향이 있는 것을 발견

시계열 순으로 특징량 플롯
계절마다, 또 트렌드의 교환이 있는 것을 알 수 있다

ADF, KPSS, PP에서 문장 (주기성) 확인
주기성의 유무를 알

AR, MA, ARMA 모델 등 사용

그 밖에도 Hierarchical time series(히에랄키 시계열)에 있어서의 어프로치의 방법, 상향식, 탑다운, 미들아웃을 소개하고 있습니다.

우선 시계열 데이터는 시기에 의한 업다운을 어떤 식으로 수식에 떨어뜨려 갈지가 중요합니다.

1.2 Feature engineering, xgboost

수행한 분석
결과

특징량을 시각화
노이즈 데이터를 찾았기 때문에 다른 수치로 보간

특징 량 엔지니어링 (매일 평균 매출을 매일 내는 특정 기간의 매출 평균을 특징 량으로 추가)
정확도 향상

xgboost로 예측

시계열로서의 정보를 꾸준히 특징량 엔지니어링으로 특징량에 떨어뜨려 xgboost로 예측한다는 형태였습니다. 이 꾸준한 특징량 엔지니어링 대단해~

1.3 A beginner guide for sale data prediction

수행한 분석
결과

특징량 시각화
계절마다의 패턴을 발견·특징량에 떨어뜨리는 것을 결정했다

LSTM에서 예측

1.4 1st place solution - Part 1 - "Hands on Data"

수행한 분석
결과

특징량 엔지니어링 (매출이 수개월 없는 가게를 그룹화하는, 가게의 이름의 중복을 발견, 이름으로부터 카테고리를 추출et)
정확도 향상

요약

여기에서 알 수 있듯이,
데이터 시각화 -> 데이터 추세 보기 -> 특징 엔지니어링 -> 모델에 돌입

라는 루틴이 공통적입니다.

2. Avocado Prices

계속해서, 시계열 데이터 세트로부터 또 하나 소개하고 싶습니다. 여기에서 사용한 방법을 중심으로 갑니다

유형 : 회귀 · 분류
요약: 과거 아보카도 판매 데이터

2.1 Price of Avocados || Pattern Recognition Analysis

이 커널은 가시화가 깨끗하고 & 세세합니다. 감동.

사용한 기법

Smoothing Moving Average

Seasonal Naive Method

Drift Method

ARIMA

2.2 Explore avocados from all sides!

이것도 굉장히 가시화가 아름답다.
이것은 유기농의 아보카도인지 그렇지 않은가 하는 분류 문제로 하고 있습니다.

사용한 기법

logistic regression

RandomForest

KNeighborsClassifier

2.3 Predicting prices of avocados

사용한 도구

prophet

2.4 EDA + Lasso

이쪽도 분류 문제에 낙담하고 있습니다.

사용한 기법

DecisionTree

RandomForest

KNeighbours

SVM

AdaBoostClassifier

GradientBoostingClassifier

Xgboost

Lasso

Ridge

Bayesian Ridge

ElasticNet

HuberRegressor

요약

특징량 엔지니어링과 가시화가 중요!

링크

대표적인 기계 학습 기법 목록

Reference

이 문제에 관하여(Kaggle의 Kernel 기법 정리 [테이블 시계열 데이터편]), 우리는 이곳에서 더 많은 자료를 발견하고 링크를 클릭하여 보았다 https://qiita.com/bern/items/4c0f3baea58582b5a19c

텍스트를 자유롭게 공유하거나 복사할 수 있습니다.하지만 이 문서의 URL은 참조 URL로 남겨 두십시오.

우수한 개발자 콘텐츠 발견에 전념 (Collection and Share based on the CC Protocol.)

좋은 웹페이지 즐겨찾기

개발자 우수 사이트 수집

개발자가 알아야 할 필수 사이트 100선 추천 우리는 당신을 위해 100개의 자주 사용하는 개발자 학습 사이트를 정리했습니다