시계열 해석 라이브러리 Prophet 공식 문서 번역 9(이상치편)

이상치

Prophet 모델에서 특이치를 다룰 때 크게 두 가지 방법이 있습니다. 여기에서는 R 페이지 (Wikipedia) 의 방문자수에 대한 로그 데이터를 이용하여 예측을 실시합니다. 그러나 이 데이터에는 몇 가지 이상값이 포함되어 있습니다.

# R
df <- read.csv('../examples/example_wp_log_R_outliers1.csv')
m <- prophet(df)
future <- make_future_dataframe(m, periods = 1096)
forecast <- predict(m, future)
plot(m, forecast)

# Python
df = pd.read_csv('../examples/example_wp_log_R_outliers1.csv')
m = Prophet()
m.fit(df)
future = m.make_future_dataframe(periods=1096)
forecast = m.predict(future)
fig = m.plot(forecast)

이 예측의 트렌드는 일견, 납득이 가는 것처럼 보입니다. 그러나 오차의 간격이 너무 크다는 문제가 있습니다. Prophet은 시계열 데이터의 이상값을 일단 취급할 수 있습니다. 다만, 그들을 피팅하고 트렌드의 변화를 예측한다고 할 수밖에 없습니다. 이러한 방식으로 만들어진 신뢰성이 부족한 모델은 이상치의 영향을 받은 채 미래의 추세를 예측합니다.

이상치를 다루는 가장 좋은 방법은 그들을 제거하는 것입니다. Prophet은 시계열 데이터의 일부가 누락된 경우에도 모델을 작성합니다. 이상값을 NA로 바꾸면 Prophet은 이상값의 영향을받지 않는 모델을 만들고 예측합니다.

# R
outliers <- (as.Date(df$ds) > as.Date('2010-01-01')
             & as.Date(df$ds) < as.Date('2011-01-01'))
df$y[outliers] = NA
m <- prophet(df)
forecast <- predict(m, future)
plot(m, forecast)

# Python
df.loc[(df['ds'] > '2010-01-01') & (df['ds'] < '2011-01-01'), 'y'] = None
model = Prophet().fit(df)
fig = model.plot(model.predict(future))

위의 예에서는 특이치가 상당히 흩어져 모델에 악영향을 미칠 것으로 보입니다. 이와 같이 항상 이상치의 영향을 회피할 수 있는 것은 아닙니다. 다음 특이치를 더 늘린 예를 살펴 보겠습니다.

# R
df <- read.csv('../examples/example_wp_log_R_outliers2.csv')
m <- prophet(df)
future <- make_future_dataframe(m, periods = 1096)
forecast <- predict(m, future)
plot(m, forecast)

# Python
df = pd.read_csv('../examples/example_wp_log_R_outliers2.csv')
m = Prophet()
m.fit(df)
future = m.make_future_dataframe(periods=1096)
forecast = m.predict(future)
fig = m.plot(forecast)

위의 예에서는 2015년 6월에 매우 많은 이상치가 흩어져 예측에 악영향을 미쳤습니다. 이것들을 제거하는 올바른 접근법을 다시 한번 보여줍니다.

# R
outliers <- (as.Date(df$ds) > as.Date('2015-06-01')
             & as.Date(df$ds) < as.Date('2015-06-30'))
df$y[outliers] = NA
m <- prophet(df)
forecast <- predict(m, future)
plot(m, forecast)

# Python
df.loc[(df['ds'] > '2015-06-01') & (df['ds'] < '2015-06-30'), 'y'] = None
m = Prophet().fit(df)
fig = m.plot(m.predict(future))

Reference

이 문제에 관하여(시계열 해석 라이브러리 Prophet 공식 문서 번역 9(이상치편)), 우리는 이곳에서 더 많은 자료를 발견하고 링크를 클릭하여 보았다 https://qiita.com/japanesebonobo/items/4eb36710c689bca80c71

텍스트를 자유롭게 공유하거나 복사할 수 있습니다.하지만 이 문서의 URL은 참조 URL로 남겨 두십시오.

우수한 개발자 콘텐츠 발견에 전념 (Collection and Share based on the CC Protocol.)

좋은 웹페이지 즐겨찾기

개발자 우수 사이트 수집

개발자가 알아야 할 필수 사이트 100선 추천 우리는 당신을 위해 100개의 자주 사용하는 개발자 학습 사이트를 정리했습니다