Kaggle의 Kernel 기법 정리 [테이블 시계열 데이터편]
이번에는 다음과 같은 비교 데이터 세트를 살펴 보겠습니다. 대회의 경우는 Kernel이 없기 때문에, Notebooks를 정리해 가려고 생각합니다.
Predict Future Sales
Avocado Prices
1. Predict Future Sales
유형:회귀
개요 : 가게의 이름, 상품의 이름 등으로부터 다음 달 1 개월에서의 상품의 매출 개수를 예측
1.1 Time series Basics : Exploring traditional TS
수행한 분석
결과
특징 량의 히스토그램 시각화
카테고리에 편향이 있는 것을 발견
시계열 순으로 특징량 플롯
계절마다, 또 트렌드의 교환이 있는 것을 알 수 있다
ADF, KPSS, PP에서 문장 (주기성) 확인
주기성의 유무를 알
AR, MA, ARMA 모델 등 사용
그 밖에도 Hierarchical time series(히에랄키 시계열)에 있어서의 어프로치의 방법, 상향식, 탑다운, 미들아웃을 소개하고 있습니다.
우선 시계열 데이터는 시기에 의한 업다운을 어떤 식으로 수식에 떨어뜨려 갈지가 중요합니다.
관련
Forecasting Hierarchical Time Series using R
R로 계량 시계열 분석: AR, MA, ARMA, ARIMA 모델, 예측
1.2 Feature engineering, xgboost
수행한 분석
결과
특징량을 시각화
노이즈 데이터를 찾았기 때문에 다른 수치로 보간
특징 량 엔지니어링 (매일 평균 매출을 매일 내는 특정 기간의 매출 평균을 특징 량으로 추가)
정확도 향상
xgboost로 예측
시계열로서의 정보를 꾸준히 특징량 엔지니어링으로 특징량에 떨어뜨려 xgboost로 예측한다는 형태였습니다. 이 꾸준한 특징량 엔지니어링 대단해~
관련
과거에 특징량 엔지니어링에 대해 기사를 썼기 때문에 이쪽도 꼭
특징량 엔지니어링 비망록
1.3 A beginner guide for sale data prediction
수행한 분석
결과
특징량 시각화
계절마다의 패턴을 발견·특징량에 떨어뜨리는 것을 결정했다
LSTM에서 예측
1.4 1st place solution - Part 1 - "Hands on Data"
수행한 분석
결과
특징량 엔지니어링 (매출이 수개월 없는 가게를 그룹화하는, 가게의 이름의 중복을 발견, 이름으로부터 카테고리를 추출et)
정확도 향상
요약
여기에서 알 수 있듯이,
데이터 시각화 -> 데이터 추세 보기 -> 특징 엔지니어링 -> 모델에 돌입
라는 루틴이 공통적입니다.
2. Avocado Prices
계속해서, 시계열 데이터 세트로부터 또 하나 소개하고 싶습니다. 여기에서 사용한 방법을 중심으로 갑니다
유형 : 회귀 · 분류
요약: 과거 아보카도 판매 데이터
2.1 Price of Avocados || Pattern Recognition Analysis
이 커널은 가시화가 깨끗하고 & 세세합니다. 감동.
사용한 기법
Smoothing Moving Average
Seasonal Naive Method
Drift Method
ARIMA
2.2 Explore avocados from all sides!
이것도 굉장히 가시화가 아름답다.
이것은 유기농의 아보카도인지 그렇지 않은가 하는 분류 문제로 하고 있습니다.
사용한 기법
logistic regression
RandomForest
KNeighborsClassifier
2.3 Predicting prices of avocados
사용한 도구
prophet
2.4 EDA + Lasso
이쪽도 분류 문제에 낙담하고 있습니다.
사용한 기법
DecisionTree
RandomForest
KNeighbours
SVM
AdaBoostClassifier
GradientBoostingClassifier
Xgboost
Lasso
Ridge
Bayesian Ridge
ElasticNet
HuberRegressor
요약
특징량 엔지니어링과 가시화가 중요!
링크
대표적인 기계 학습 기법 목록
Reference
이 문제에 관하여(Kaggle의 Kernel 기법 정리 [테이블 시계열 데이터편]), 우리는 이곳에서 더 많은 자료를 발견하고 링크를 클릭하여 보았다
https://qiita.com/bern/items/4c0f3baea58582b5a19c
텍스트를 자유롭게 공유하거나 복사할 수 있습니다.하지만 이 문서의 URL은 참조 URL로 남겨 두십시오.
우수한 개발자 콘텐츠 발견에 전념
(Collection and Share based on the CC Protocol.)
계속해서, 시계열 데이터 세트로부터 또 하나 소개하고 싶습니다. 여기에서 사용한 방법을 중심으로 갑니다
유형 : 회귀 · 분류
요약: 과거 아보카도 판매 데이터
2.1 Price of Avocados || Pattern Recognition Analysis
이 커널은 가시화가 깨끗하고 & 세세합니다. 감동.
사용한 기법
Smoothing Moving Average
Seasonal Naive Method
Drift Method
ARIMA
2.2 Explore avocados from all sides!
이것도 굉장히 가시화가 아름답다.
이것은 유기농의 아보카도인지 그렇지 않은가 하는 분류 문제로 하고 있습니다.
사용한 기법
logistic regression
RandomForest
KNeighborsClassifier
2.3 Predicting prices of avocados
사용한 도구
prophet
2.4 EDA + Lasso
이쪽도 분류 문제에 낙담하고 있습니다.
사용한 기법
DecisionTree
RandomForest
KNeighbours
SVM
AdaBoostClassifier
GradientBoostingClassifier
Xgboost
Lasso
Ridge
Bayesian Ridge
ElasticNet
HuberRegressor
요약
특징량 엔지니어링과 가시화가 중요!
링크
대표적인 기계 학습 기법 목록
Reference
이 문제에 관하여(Kaggle의 Kernel 기법 정리 [테이블 시계열 데이터편]), 우리는 이곳에서 더 많은 자료를 발견하고 링크를 클릭하여 보았다
https://qiita.com/bern/items/4c0f3baea58582b5a19c
텍스트를 자유롭게 공유하거나 복사할 수 있습니다.하지만 이 문서의 URL은 참조 URL로 남겨 두십시오.
우수한 개발자 콘텐츠 발견에 전념
(Collection and Share based on the CC Protocol.)
Reference
이 문제에 관하여(Kaggle의 Kernel 기법 정리 [테이블 시계열 데이터편]), 우리는 이곳에서 더 많은 자료를 발견하고 링크를 클릭하여 보았다 https://qiita.com/bern/items/4c0f3baea58582b5a19c텍스트를 자유롭게 공유하거나 복사할 수 있습니다.하지만 이 문서의 URL은 참조 URL로 남겨 두십시오.
우수한 개발자 콘텐츠 발견에 전념 (Collection and Share based on the CC Protocol.)