비변수 함수 회귀(1)

개시하다


도쿄공업대학주식회사밤살이. 이 글은 함수 데이터에 대한 비변수 회귀 분석을 소개했다. 이 글의 내용은 주로 Masry(2005),Ferraty and Vieu(2006)의 내용을 바탕으로 한다.
이 글의 내용은 함수 데이터 분석에 관한 글이다
"함수 시간 시퀀스 데이터의 주성분 분석(1)"
"함수 시간 시퀀스 데이터의 주성분 분석(2)"
"함수 시간 시퀀스 데이터의 주성분 분석(3)"
라는 속편이 실렸다.

모델


아래의 비변수 회귀 모델을 고려하다.
\begin{align*}
Y_t &= m(X_t) + e_t,\ t=1,\dots,T.
\end{align*}
여기, $(Y t, X t)\}{t=1]^{T}달러는 관측 데이터, $\{et\}$E[e{t}|X{t}]=0달러의 관측 오차, $Yt$실수, $X함수 데이터, 특히 범수 공간 B (전형적인 힐버트 공간과 바나나 공간) 는 $T$T의 데이터가 독립적이거나 안정적인 시간 서열 데이터라고 가정합니다.
위의 모델은 선형 회귀 모델(매개 변수 모델)을 포함하는 모델이다.
예를 들어 $B=\mathb{R}^{p}달러의 경우 $X{t}=(X{1,t},\dots,X{p,t})$,\beta=(\beta{1},\dots,\beta{p})\in\mathb{R}^{p}달러,통상적인 선형 회귀 모델은
m(X_{t}) = X_{t}'\beta
할 수 있다.
또한, B=(H\langle\cdot,\cdot\rangle)달러(내적$\langle\cdot,\cdot\rangele달러의 힐버트 공간)라면 $\beta\in H$, 힐버트 공간값 변수에 대한 선형 회귀 모델은
m(X_{t}) = \langle X_{t}, \beta \rangle 
예: $X만약에 t$$[0,1]달러의 제곱 포인트 공간($H=L^2([0,1])$)이 있으면 함수 선형 회귀 모델은 다음과 같은 함수 데이터 분석에서 자주 사용된다.
m(X_{t}) = \langle X_{t}, \beta \rangle = \int_0^1 X_t(s)\beta(s)ds,\ \beta \in L^2([0,1]).
다음 글은 함수 데이터를 이용한 구체적인 예와 R의 분석 방법을 소개하였으며, 관심 있는 사람은 반드시 참고하시기 바랍니다.
"함수 시간 시퀀스 데이터의 주성분 분석(1)"
"함수 시간 시퀀스 데이터의 주성분 분석(3)"

비변수 내핵 추정량


데이터 $(Y t, X t)\}{t=1]^{T} 달러의 비변수 회귀 함수 $m을 사용하여 추정하는 것을 고려해 봅시다. 여기에는 특히 아래의 추정량(Nadaraya-Watson 추정량, NW 추정량)을 사용하여 $m을 추정하는 것을 고려합니다.
\begin{align*}
\widehat{m}(x) &= {\sum_{t=1}^{T}Y_tK(\|x - X_t\|/h) \over \sum_{t=1}^{T}K(\|x - X_t\|/h)},\ x \in B.
\end{align*} 
그러나 $K:[0,1]\to[0,\infty)는 적당한 조건을 충족시키는 내핵 함수이고 $h=h{T}\to0$($T\to\infty$)는 대역폭이다.
위 NW 추정치는 $X{t} 달러가 실수($\mathb{R}$) 또는 실수 벡터($\mathb{R}^{p}$)라면추산량 정의에 나타나는 범례를 절대값이나 유클리드 범수로 바꾸면 일반적인 NW 추정량과 일치합니다. 이런 의미에서 $\widehat{m}은 일반 NW 추정량을 함수 데이터로 자연스럽게 확장하는 프레임워크로 볼 수 있습니다. 또한 $\widehat{m} (x) 달러도 다음과 같이 정의할 수 있습니다.
\begin{align*}
\widehat{m}(x) &= \text{argmin}_{\theta}\sum_{t=1}^{T}\left(Y_t - \theta\right)^2 K\left(\|x - X_t\|/h\right)
\end{align*} 
이 정의에 따라 $\widehat {m} (x) 달러는 국부 상수 추정량 (local constant estimator) 이라고도 부른다.

추정량의 성질


다음은 $T\to\infty달러의 경우 $\widehat{m}의 점근성(수렴률, 점근정규성)을 소개합니다. 여기에 소개된 결과를 제외하고 Ferratyand Vieu(2006)에서는
교차 검증법(cross validation)에서 $\widehat{m}(x)달러를 실현하는 데 필요한 대역폭 $h를 선택하는 방법
  • 실제 데이터에 응용한 실례로 육식의 질적 관리를 수행할 때 얻은 데이터($Y{t}=육식의 지방 성분, $X{t}=달러식육의 흡수 스펙트럼)의 분석 예시
  • 소개도 있고요.

    Small ball probability


    함수 데이터에 대한 NW 추정량 분석을 할 때 일반적인 NW 추정량 분석과 크게 다른 점은 smal ball probability의 개념을 열거할 수 있다. $B(x,h)$x\inB달러를 중심으로 반경 $h의 공, 즉 $B(x,h)=\{y\inB:\|x-y\leqh\}달러, $x$를 중심으로 하는 $X$smmall ball probability는 $P(X t\in B(x, h)로 정의됩니다.
    특히 아래 $X$smmall ball probability가 다음과 같은 조건을 만족한다고 가정하면
    0< c\phi(h)f_1(x) \leq P(X_t \in B(x,h)) \leq C\phi(h)f_1(x),
    
    여기서 $\phi(h)\to0$($h\to0$),$f1(x)달러는 $x\inB달러에만 의존하는 함수입니다(더 자세한 토론Masry (2005). 상기 가설은 $\widehat{m}달러의 분산을 평가할 때 필요합니다.
    샘플 공간 $B=\mathb{R]^{p} 달러의 경우 $X만약 {t} 달러(안정) 분포 확률 밀도 $f(x) 달러 smal probability
    \begin{align*}
    P(X_t \in B(x,h)) &\approx f(x)h^{p} 
    \end{align*}
    
    의 근사성립, 일반 함수 데이터의 경우 $X{t}달러의 분포는 일반적인 의미의'밀도 함수'를 가지지 않기 때문에 $B=\mathb{R}^{p}달러와 같이 본고에서 도입한 smalballprobability는 추정량의 성질을 분석하는 데 매우 중요하다. 예를 들어 $B=C([0,1])달러($[0,1]달러에 정의된 연속 편지 수는 전체이고 $|x\||||||||||||||{s\in[0]]]]]]|x(s)|$X$이다.{t}(s) $s\in[0,1]에 정의된 Ornstein-Uhlenbeck 프로세스라면 $\phi(h)\exp\left(-h^{2-}\right)$(Ferratyand Vieu(2006),Section13)를 알고 있습니다. 함수 데이터의 밀도 함수Delaigle and Hall (2010)에 대해서도 상세하게 논의했습니다.

    회귀 함수 평활도


    회귀 함수는 $m 다음 조건을 가정합니다: 임의의 $x'\inB(x,1)달러, $\beta>0달러, $C>0달러
    |m(x) - m(x')| \leq C\|x- x'\|^{\beta}
    
    이 조건은 $\widehat{m}의 편차를 평가해야 합니다.
    $B=\mathb{R}^{p}, $H\langle\cdot,\cdot\rangele)의 선형 회귀 모델, 특히 $\beta=1달러를 열거했습니다.

    일치성(수렴률)


    Ferraty and Vieu(2006)에서 $(Y t, X{t})\]{t=1]^{T} 달러가 독립적이라면 안정적인 시간 서열 데이터의 $\widehat{m} 수렴률을 제시합니다. 특히 데이터가 독립적이라면 적당한 조건에서 다음과 같은 결과를 얻을 수 있습니다. (Theorem6.11)
    \begin{align*}
    \widehat{m}(x) - m(x) &= O(h^{\beta}) + O_{p}\left(\sqrt{\log T \over T\phi(h)}\right).
    \end{align*}
    
    상기 수렴률 중 1항은 편압항, 2항은 분산항에 대응한다.
    이 글은 비매개 변수 회귀 ($X t 달러를 주었을 때 $Y {t} 달러의 조건부 기대치 $m (x) = E [Y {t} | X {t} = x] $) 를 소개하였으나, Ferratyand Vieu (2006) 에서는 다른 $X 를 소개하였다상대에게 주는 $Y{t} 조건 모델, 중치, 분위점의 비변수 평가와 수렴률에 대해서도 토론을 진행하였다.

    점근 정규성


    Masry(2005)에서 Ferraryand Vieu(2006)의 해석을 진행합니다. ${(Y t, X{t})\]{t=1]^{T}달러는 안정적인 시간 서열(\alpha$-mixing) 상황에서(Ferraryand Vieu(2006)보다 약간 제약이 있는 조건에서) $\widehat{m}달러의 점근 정규성(Theorem5)을 나타낸다.
    \sqrt{T\phi(h)}(\widehat{m}(x) - m(x) - B_T(x)) \stackrel{d}{\to} N(0, V(x)).
    
    여기는 $B입니다.T(x)=O(h^{beta})달러는 $\widehat{m}(x)달러의 편압항이고, $V(x)달러는 ($\widehat{m}(x)달러의 점진분산) $\times(T\phi(h))달러의 한계다.
    Kurisu (2021)에서는 Masry(2005)의 안정적 함수 시간 시퀀스 데이터를 불안정한 함수 시간 시퀀스 데이터로 확장한 결과가 도출됐다.

    총결산


    본고는 함수 데이터의 비변수 회귀분석(NW 추정량, 국부 상수 추정량이라고도 부른다)에 대해 해설하였다.
    주식회사 노스페어는 통계학 각 분야에 전문적으로 종사하는 연구원으로 통계 고문과 상업 데이터에 대한 분석은 문의주식회사하십시오.



    참고 문헌
    [1] Delaigle, A. and Hall, P. (2010). Defining probability density for a distribution of random functions. Annals of Statistics 38, 1171-1193.
    [2] Ferraty, F. and Vieu, P. (2006). Nonparametric Functional Data Analysis: Theory and Methods. Springer.
    [3] Kurisu, D. (2021). Nonparametric regression for locally stationary functional time series. arXiv:2105.07613.
    [4] Masry, E. (2005). Nonparametric regression for dependent functional data: asymptotic normality. Stochastic Processes and their Applications. 115, 155-177.

    좋은 웹페이지 즐겨찾기