시간 서열 분석 6 허위 회귀와 공화분

11957 단어 statsmodelsPython

1. 개요


  • 다섯째 을 바탕으로 계속 학습한다.
  • 본 원고는 제6장에 대한 허위 회귀와 공화점
  • 2. 거짓 귀환


    정의


    두 개의 무관한 단위 루트 과정 $xt$y정보t=\alpha+\beta x_t+\epsilon_t$회귀 시, $xt$y의미 있어 보이는 현상을 가귀환이라고 한다.

    확인

  • 두 개의 독립 프로세스 $\qquadxt=x_{t-1}+\epsilon_{x,t},\quad\epsilon_{x,t}\sim iid(0,\sigma_x^2)$$\qquad y_t=y_{t-1}+\epsilon_{y,t},\quad\epsilon_{y,t}\sim id(0,\sigma y^2)제작 $$\qquadyt=\alpha+\beta x_t+\epsilon_모델로 회귀하다.
  • # データ生成
    sigma_x, sigma_y = 1, 2
    T = 10000
    xt = np.cumsum(np.random.randn(T) * sigma_x).reshape(-1, 1)
    yt = np.cumsum(np.random.randn(T) * sigma_y).reshape(-1, 1)
    
  • 드로잉은 다음과 같습니다.
  • 먼저 scikit-learn에서 컴백했다.
  • from sklearn.linear_model import LinearRegression
    reg = LinearRegression().fit(xt,yt)
    print('R-squared : ',reg.score(xt,yt))
    print('coef : ',reg.coef_, 'intercept', reg.intercept_)
    
    R-squared : 0.4794854506874714
    coef : [[-0.62353254]] intercept [-24.27600549]
  • 확정 계수($R^2달러)는 0.479로 상당히 높다.회귀모델에 관해서는 $\alpha=-24.28,\quad\beta=-0.6235달러의 형식이 되었다.
  • $x_t$yt달러가 독립되어 있는지 확인하기 위해 $H0:\beta=0달러 검정하고 싶어요.그러나 scikit-learn은 그렇게 많은 기능을 찾지 못했다.
  • 다른 라이브러리를 찾을 때statsmodels가 편리해 보여서statsmodels로 다시 돌아왔습니다.
  • import statsmodels.api as sm
    reg = sm.OLS(yt,sm.add_constant(xt,prepend=False)).fit()
    reg.summary()
    
    Dep. Variable:
    y
    R-squared:
    0.479
    Model:
    OLS
    Adj. R-squared:
    0.479
    Method:
    Least Squares
    F-statistic:
    9210.
    Date:
    Tue, 07 Jan 2020
    Prob (F-statistic):
    0.00
    Time:
    22:36:57
    Log-Likelihood:
    -51058.
    No. Observations:
    10000
    AIC:
    1.021e+05
    Df Residuals:
    9998
    BIC:
    1.021e+05
    Df Model:
    1
    Covariance Type:
    nonrobust
    coef
    std err
    t
    P>abs(t)
    [0.025
    0.975]
    const
    -24.2760
    0.930
    -26.113
    0.000
    -26.098
    -22.454
    x1
    -0.6235
    0.006
    -95.968
    0.000
    -0.636
    -0.611
  • add_constant은 회귀 모델에 정수 항목이 포함되어 있는지 여부와 관계가 있습니다. (아까 회귀식에서 말한 $\alpha$)add_constant을 진행함으로써 회귀 모델에 정수 항목을 포함합니다.또한 scikit-learn의 경우 fitintercept라는 매개 변수를 False로 설정하면, 정수 항목이 없는 회귀가 됩니다.위에 이걸 명확하게 설명하지 않았어요.True가 기본값이기 때문입니다.
  • scikit-learn
  • 때와 마찬가지로 확정계수는 0.479달러, $\alpha=-24.28,\quad\beta=-0.6235달러로 같은 회귀가 가능함을 확인했다.
  • statsmodels의 장점은 95%의 유효 수준치를 제공할 수 있다는 것이다.이거 보시면 $H.0:\beta=0달러, 95%의 의미 수준에서 -0.6이상-0.611이하여야 하므로 $H0달러는 기각될 것이다.거짓 귀환이다.
  • 회피법


    모델에 라그 변수 포함

  • 회귀 모델은 다음과 같다.\qquad y_t=\alpha+\beta_1 x_t+\beta_2 y_{t-1}+\epsilon_t$$y_t$$$$$y 설명 변수{t-1} $이(가) 추가되었습니다.statsmodels를 사용하여 회귀할 때 다음과 같다.sm.OLS는 매개 변수에 설명 변수, 설명 변수를 사용하지만 설명 변수는 다음과 같이 한 배열에 집중되어 전달되어야 한다.
  • x_t, y_t, y_t_1 = xt[1:], yt[1:], yt[:-1]
    X = np.column_stack((x_t, y_t_1))
    reg = sm.OLS(y_t,sm.add_constant(X)).fit()
    reg.summary()
    
    Dep. Variable:
    y
    R-squared:
    0.999
    Model:
    OLS
    Adj. R-squared:
    0.999
    Method:
    Least Squares
    F-statistic:
    3.712e+06
    Date:
    Thu, 09 Jan 2020
    Prob (F-statistic):
    0.00
    Time:
    22:12:59
    Log-Likelihood:
    -21261.
    No. Observations:
    9999
    AIC:
    4.253e+04
    Df Residuals:
    9996
    BIC:
    4.255e+04
    Df Model:
    2
    Covariance Type:
    nonrobust
    coef
    std err
    t
    P>abs(t)
    [0.025
    0.975]
    const
    -0.0815
    0.049
    -1.668
    0.095
    -0.177
    0.014
    x1
    -0.0004
    0.000
    -0.876
    0.381
    -0.001
    0.000
    x2
    0.9989
    0.001
    1964.916
    0.000
    0.998
    1.000
  • 이전 모델에서 $\alpha=-0.0815,\quad\beta1=-0.0004,\quad\beta_2=0.9989달러의 결과를 얻었다\alpha달러 및 $\beta1달러는 거의 0이고 대부분은 달러 y이다{t-1} 달러로 설명할 수 있습니다.상관수는 0.999로 1에 가깝다.또한, $H0 :\beta_1=0달러가 기각되지 않는다는 점도 주목할 만하다.
  • 단위 뿌리 과정의 차이를 취하여 정상 과정 후 회귀하다

  • 회귀 모델은 다음과 같다.\qquad \Delta y_t=\alpha+\beta\Delta x_t+\epsilon_t$
  • x_t, y_t = np.diff(xt.flatten()).reshape(-1,1), np.diff(yt.flatten()).reshape(-1,1)
    reg = sm.OLS(y_t,sm.add_constant(x_t)).fit()
    reg.summary()
    
    Dep. Variable:
    y
    R-squared:
    0.000
    Model:
    OLS
    Adj. R-squared:
    0.000
    Method:
    Least Squares
    F-statistic:
    3.297
    Date:
    Thu, 09 Jan 2020
    Prob (F-statistic):
    0.0694
    Time:
    22:33:26
    Log-Likelihood:
    -21262.
    No. Observations:
    9999
    AIC:
    4.253e+04
    Df Residuals:
    9997
    BIC:
    4.254e+04
    Df Model:
    1
    Covariance Type:
    nonrobust
    coef
    std err
    t
    P>abs(t)
    [0.025
    0.975]
    const
    -0.0138
    0.020
    -0.681
    0.496
    -0.054
    x1
    -0.0374
    0.021
    -1.816
    0.069
    -0.078
  • Dell의 경우 상관수는 0이며 $\beta=-0.0374달러H_0 :\beta_1=0달러도 포기할 수 없음, $\Deltaxt$\Deltay얻은 결론은 무의미한 관계다.
  • 3. 공화분


    정의

  • $x_t$y루트 프로세스($\rmI(1)$) t달러.이때, $axt + b y_t\sim\rm I(0)$처럼 안정적인 $a와 $b가 존재하는 경우 $xt$y공화분과 관계가 있다.또한 $(a,b)'$는 공화분향량이라고 불린다.
  • 더 일반적으로, $t\sim\rm I (1)달러, $\mathba'\mathby 정보t\sim\rm I (0) 달러, $\mathbba$가 있는 경우 $공화분과 관계가 있다.또한 $\mathbba$은 공화 분향량이라고 합니다.
  • 예: ${1t},u_서로 독립된 안정 과정, $w${1t},w_{2t} 달러를 서로 독립된 단위 루트로 하는 과정t =\alpha w_{1t} + u_{1t}\\y_t =\beta w_{1t} + u_{2t}\end{array}\right.$생각해 보아라.이때, $x또한t$\rmI (1)$프로세스, $\qquadxt -\frac{\alpha}{\beta}y_t = u_{1t} -\frac{\alpha}{\beta}u_{2t}\sim\rmI(0)$이므로 $xt$y달러는 공화분 관계가 존재하는데 공화분 벡터는 $(1,-frac {alpha} {beta}) 달러이다.
  • 인상.

  • $x_t$y단위 루트 프로세스 중 $xt$y장기 예측의 오차가 커졌다.
  • 하지만, $xt$y만약 공화분 관계가 존재한다면,t = y_t - a x_t$$a$를 안정적인 과정으로 만드는 $a$가 존재합니다. 이때 $z일정한 정밀도로 장기 예측을 할 수 있다.
  • 그린 표현의 정리

  • 공화분 관계를 포함하는 VAR 모델은 벡터 오차 수정 모델(VECM)으로 표시할 수 있다.
  • 공화분 시스템(VAR(p) 표시 $\mathbyt달러 정보, $\qquad\begin{align}\Delta\mathbyt &=\zeta_1\Delta\mathbb y_{t-1} +\zeta_2\Delta\mathbb y_{t-2} +\cdots +\zeta_{p-1}\Delta\mathbb y_{t-p+1} +\mathbb\alpha +\zeta_0\Delta\mathbb y_{t-1} +\epsilon_t\\&=\zeta_1\Delta\mathbb y_{t-1} +\zeta_2\Delta\mathbb y_{t-2} +\cdots +\zeta_{p-1}\Delta\mathbb y_{t-p+1} +\mathbb\alpha + -\mathbb B\mathbb A'\mathbb y_{t-1} +\epsilon_VECM(p-1)으로 표현할 수 있습니다.
  • $-\mathbb B\mathbb A'\mathbb y_{t-1}달러는 오차 수정항이라고 불린다.여기서 $\mathbbA는 공화분 벡터를 나타내고 오차 수정항은 균형이 맞지 않을 때 균형을 회복하는 힘이 작용한다는 것을 나타낸다.
  • 좋은 웹페이지 즐겨찾기