Kaggle의 Kernel 기법 정리 [테이블 시계열 데이터편]

이 기사에서는 Kaggle 대회에서 데이터 유형별 정석과 같은 것을 작성합니다. 또한 대회 관계없이 정밀도가 나오지 않을 때의 힌트 등이되면 좋다고 생각합니다.



이번에는 다음과 같은 비교 데이터 세트를 살펴 보겠습니다. 대회의 경우는 Kernel이 없기 때문에, Notebooks를 정리해 가려고 생각합니다.
Predict Future Sales
Avocado Prices

1. Predict Future Sales



유형:회귀
개요 : 가게의 이름, 상품의 이름 등으로부터 다음 달 1 개월에서의 상품의 매출 개수를 예측

1.1 Time series Basics : Exploring traditional TS




수행한 분석
결과


특징 량의 히스토그램 시각화
카테고리에 편향이 있는 것을 발견

시계열 순으로 특징량 플롯
계절마다, 또 트렌드의 교환이 있는 것을 알 수 있다

ADF, KPSS, PP에서 문장 (주기성) 확인
주기성의 유무를 알

AR, MA, ARMA 모델 등 사용



그 밖에도 Hierarchical time series(히에랄키 시계열)에 있어서의 어프로치의 방법, 상향식, 탑다운, 미들아웃을 소개하고 있습니다.

우선 시계열 데이터는 시기에 의한 업다운을 어떤 식으로 수식에 떨어뜨려 갈지가 중요합니다.

관련



Forecasting Hierarchical Time Series using R

R로 계량 시계열 분석: AR, MA, ARMA, ARIMA 모델, 예측

1.2 Feature engineering, xgboost




수행한 분석
결과


특징량을 시각화
노이즈 데이터를 찾았기 때문에 다른 수치로 보간

특징 량 엔지니어링 (매일 평균 매출을 매일 내는 특정 기간의 매출 평균을 특징 량으로 추가)
정확도 향상

xgboost로 예측



시계열로서의 정보를 꾸준히 특징량 엔지니어링으로 특징량에 떨어뜨려 xgboost로 예측한다는 형태였습니다. 이 꾸준한 특징량 엔지니어링 대단해~

관련



과거에 특징량 엔지니어링에 대해 기사를 썼기 때문에 이쪽도 꼭
특징량 엔지니어링 비망록

1.3 A beginner guide for sale data prediction




수행한 분석
결과


특징량 시각화
계절마다의 패턴을 발견·특징량에 떨어뜨리는 것을 결정했다

LSTM에서 예측



1.4 1st place solution - Part 1 - "Hands on Data"




수행한 분석
결과


특징량 엔지니어링 (매출이 수개월 없는 가게를 그룹화하는, 가게의 이름의 중복을 발견, 이름으로부터 카테고리를 추출et)
정확도 향상


요약



여기에서 알 수 있듯이,
데이터 시각화 -> 데이터 추세 보기 -> 특징 엔지니어링 -> 모델에 돌입

라는 루틴이 공통적입니다.

2. Avocado Prices



계속해서, 시계열 데이터 세트로부터 또 하나 소개하고 싶습니다. 여기에서 사용한 방법을 중심으로 갑니다

유형 : 회귀 · 분류
요약: 과거 아보카도 판매 데이터

2.1 Price of Avocados || Pattern Recognition Analysis



이 커널은 가시화가 깨끗하고 & 세세합니다. 감동.


사용한 기법


Smoothing Moving Average

Seasonal Naive Method

Drift Method

ARIMA


2.2 Explore avocados from all sides!



이것도 굉장히 가시화가 아름답다.
이것은 유기농의 아보카도인지 그렇지 않은가 하는 분류 문제로 하고 있습니다.


사용한 기법


logistic regression

RandomForest

KNeighborsClassifier


2.3 Predicting prices of avocados




사용한 도구


prophet


2.4 EDA + Lasso



이쪽도 분류 문제에 낙담하고 있습니다.


사용한 기법


DecisionTree

RandomForest

KNeighbours

SVM

AdaBoostClassifier

GradientBoostingClassifier

Xgboost

Lasso

Ridge

Bayesian Ridge

ElasticNet

HuberRegressor


요약



특징량 엔지니어링과 가시화가 중요!


링크



대표적인 기계 학습 기법 목록

좋은 웹페이지 즐겨찾기