선형 회귀 Tips

개시하다


천엽대학유한공사.이번에는 초보자를 대상으로 하는 내용으로 선형 회귀 모델의 작은 부분 집합이다. 나는 본과생에게 몇 가지를 설명해 주었는데 학생들이 쉽게 걸려 넘어지고 주의하기 어려운 부분이다.

데이터에 대해 대수 변환을 할 때의 회귀 계수에 대한 해석


일반적으로 설명된 변수 $y$또는 설명된 변수 $x$x를 대수로 변환한 후 선형 회귀 모델을 적용합니다.

준비


다음의 선형 회귀 모델을 고려하면 전환이 없다.
$$
y_i =\beta_0 +\beta_1x_{1i} +\dots +\beta_k x_{ki} +\varepsilon_i,\quad\varepsilon_i\overset{\mathrm{iid}}{\sim} (0,\sigma^2),\quad i = 1,\dots,n
$$
이 모델의 $\beta1달러는 "다른 변수가 1달러 x 1달러만 증가할 때 달러는 평균 $\beta 1달러 증가한다"고 설명했다.

준비


$x=0달러를 둘러싸고 한 번 근사하게 진행하면 $\log(1+x)\applox달러,
\begin{align}
\log y' - \log y &= \log {y' \over y} \\
&= \log \left( 1 + {y' - y \over y} \right) \\
&\approx {y' - y \over y}
\end{align}
$y$y'부터 $y'까지 달러의 변화율은 $\logy'-\logy 달러와 비슷하다.

설명된 변수의 대수 변환


설명 변수 $y$대수 변환 후 다음 선형 회귀 모델을 고려합니다.
$$
\log y_i =\beta_0 +\beta_1 x_{1i} +\dots +\beta_k x_{ki} +\varepsilon_i,\quad\varepsilon_i\overset{\mathrm{iid}}{\sim} (0,\sigma^2),\quad i = 1,\dots,n
$$
천구보
이 모델의 $\beta1달러의 해석을 고려한다. 준비1의 설명을 직접 적용하면 "다른 변수가 1달러 x 1달러만 증가할 때 $\logy$평균 $\beta1달러가 증가한다"는 설명 자체가 옳지만,"$\logy$\beta 1이 증가할 때 $Y 달러는 얼마나 변할까요?"
\begin{align}
\beta_1 &= \log y' - \log y \\
&\approx {y' - y \over y}
\end{align}
즉달러 비율로 1달러의 비율을 설명하자면'다른 변수가 1달러 x 1달러만 증가할 때 달러는 평균 100달러\beta1달러가 증가한다'. 변화율은 백분율 단위로 표시되기 때문에 100배 증가한다. 예를 들어 달러.1달러가 0.07로 추정되면 0.07달러가 증가한다.

변수의 대수 변환을 설명하다


다음은 변수 $x 설명1달러 대수를 변환한 다음 모델을 고려해 보자.
$$
y_i =\beta_0 +\beta_1\log x_{1i} +\dots +\beta_k x_{ki} +\varepsilon_i,\quad\varepsilon_i\overset{\mathrm{iid}}{\sim} (0,\sigma^2),\quad i = 1,\dots,n
$$

이 모델의 $\beta1달러의 설명도 준비1의 설명에 직접 적용된다. "다른 변수가 1달러\logx 1달러 증가하면 달러는 평균 $\beta 1달러만 증가한다."그리고 $1달러를 0.01달러로 늘리면'다른 변수가 0.01달러를 고정치로 늘릴 때 달러는 평균 $\beta1/100달러 증가한다'(위 그림 참조)1달러의 0.01 증가,
\begin{align}
0.01 &= \log x' - \log x \\
&\approx {x' - x \over x}
\end{align}
따라서 최종적으로'다른 변수가 1달러 x 1달러만 증가할 때 달러는 평균 약 $\beta 1/100달러 증가한다'고 해석할 수 있다.

설명 변수와 설명 변수의 대수 변환


마지막으로 설명 변수와 설명 변수에 대해 대수 변환을 한 모델을 고려해 보십시오.
$$
\log y_i =\beta_0 +\beta_1\log x_{1i} +\dots +\beta_k x_{ki} +\varepsilon_i,\quad\varepsilon_i\overset{\mathrm{iid}}{\sim} (0,\sigma^2),\quad i = 1,\dots,n
$$

먼저,'다른 변수가 0.01달러\logx1달러만 증가할 때 달러는 평균적으로 $\beta1/100달러만 증가한다'는 설명부터 시작한다(위 그림 참조). 달러\logx$0.01달러의 증가는'약 1달러의 x% 증가'를 의미한다."100달러의 증가는"달러의 약 $\beta 1달러의 증가"를 의미하기 때문에 최종적으로"다른 변수가 $x1달러의 1%만 증가했을 때 달러는 평균 약 $\beta 1달러 증가했다"고 해석할 수 있다.1달러는 이른바 탄력성의 근사함으로 해석할 수 있다.
$y$              
$\log y$
$x$
달러가 1달러 증가하면 달러는 $증가합니다
달러가 1달러 증가하면 달러는 100$\beta$증가합니다.
$\log$ $x$
달러가 1% 증가하면 달러는 $\beta/100달러 증가
달러가 1% 증가하면 달러는 $증가합니다

편리 회귀 함수 형식


다항식


온라인 회귀 프레임워크에서도 설명 변수와 설명 변수의 비선형 관계를 나타낼 수 있다. 앞에서 말한 변수의 대수 변환도 그 중의 하나이지만 설명 변수의 멱을 새로운 설명 변수에 추가함으로써 회귀 함수를 다항식으로 만들 수 있다.
$$
y_i =\beta_0 +\beta_1 x_i +\beta_2 x_i^2 +\varepsilon_i,\quad\varepsilon_i\overset{\mathrm{iid}}{\sim}(0,\sigma^2),\quad i = 1,\dots,n
$$
위의 모델은 달러와의 관계가 비선형인 2차 함수 형식의 모델이다.
$$
{\partial y\over\partial x} =\beta_1 + 2\beta_2 x
$$
'1달러x달러 증가로 달러당 평균이 약 $\beta1+2\beta2x$2'증가했다는 설명에 따라 달러x달러의 변화가 달러 y달러에 미치는 영향의 크기는 $x의 값에 따라 다르다. 때로는 달러 y달러에 미치는 영향이 정반대일 수도 있다. 예를 들어 소득을 근무 연한으로 되돌리면물론 근속연수가 적은 곳의 부가근속연수가 소득을 늘리는 효과가 있어도 그 효과는 점점 작아져 어느 연수부터 소득을 줄이는 효과가 있다.

상호 작용 항목


영어는interactionterm입니다.
$$
y_i =\beta_0 +\beta_1 x_i +\beta_2 z_i +\beta_3 x_i z_i +\varepsilon_i,\quad\varepsilon_i\overset{\mathrm{iid}}{\sim} (0,\sigma^2),\quad i = 1,\dots,n
$$
$x$가 연속 변수일 때,
$$
{\partial y\over\partial x} =\beta_1 +\beta_3 z
$$
더 나아가 "달러가 1달러 증가하면 달러는 평균적으로 $\beta 1+\beta 3z 달러가 증가한다"라고 덧붙였다. 달러가 달러화에 미치는 영향의 크기도 달러 크기에 따라 달라진다. 예를 들어 달러수입, 달러x달러는 근무연수, 달러z달러는 교육연수, 달러는 교육연수, 달러는1달러 및 $3달러가 모두 정수로 추산된다고 가정하면 이때는 근로 연수가 길어지면 1년 소득도 평균적으로 증가하지만, 이를 늘리는 방법은 교육 연수가 긴 쪽이 더 큰 것으로 추정된다.
다음에 우리는 가상 변수의 상황을 고려할 것이다1=1달러일 때,
$$
y_i = (\beta_0 +\beta_1) + (\beta_2 +\beta_3)z_i +\varepsilon_i,
$$
$x_i=0$일 때
$$
y_i =\beta_0 +\beta_2z_i +\varepsilon_i
$$
모델과 다시 쓸 수 있다. 즉, 위조 변수 $x$에 따라 구분된 분류 사이에 절편뿐만 아니라 경사율도 변화하는 모델도 상호작용 항목을 통해 표현된다.

끝말


주식회사 노스페어는 통계학의 각 분야에 전문적으로 종사하는 연구원 소속이다. 통계 고문과 상업 데이터에 대한 분석이다.문의 주세요.

좋은 웹페이지 즐겨찾기