R을 통한 데이터 과학 6장

2818 단어 R

소개



본 기사는 「R에 의한 데이터 사이언스 제2반(김명호 저, 모리키타 출판)」을 독학해 나가는데 있어서의 메모가 됩니다.
쭉 R파일에 코멘트 아웃 형식으로 메모를 쓰고 있었습니다만, 유석에 보기 힘들기 때문에 이쪽에 기사라고 하는 보기 쉬운 형태로 남겨 갑니다.
R의 기본적인 사용법인 부분은 각 수법 속에서 배울 수 있을 것이라는 것으로, 구체적인 수법에 관한 장으로부터 정리해 가려고 생각합니다.

선형 회귀 분석



원래 회귀 분석이란?



혈압=f(연령)로 하면 혈압을 목적 변수, 연령을 설명 변수라고 합니다.
회귀분석은 설명변수를 이용하여 목적변수를 설명하는 통계모델을 데이터로부터 구하는 데이터분석 방법입니다.
또 회귀분석에 관해서 설명변수가 하나라면 단회귀분석, 복수라면 중회귀분석이라고 합니다.
또한 그 중에서도 직선 관계로 모델화하는 회귀 분석을 선형 회귀 분석, 비선형 관계로 모델화하는 회귀 분석을 비선형 회귀 분석이라고합니다.
아래는 간단한 포괄 관계를 보여줍니다. 비선형 회귀 모델의 형태는 예입니다.


선형 회귀에서 사용되는 방법으로 최소 제곱법이 있습니다.
이하에서는 간단을 위해 단회귀(하나의 목적 변수를 하나의 설명 변수로 예측)의 경우를 생각하고 있습니다.
최소 제곱법은 실제 데이터 $y_{i}$와 통계 모델 $\hat{y} = a + bx_{i}$의 차이(잔차)의 제곱 합이다. $S_{e} =\sum (y_{i} - a - bx_{i})^{2}$를 최소화하는 계수 $a$ 및 $b$를 찾는 방법입니다. 편미분 방정식을 풀면 해를 구할 수 있습니다.

사례 연구



(1) 함수 lm
선형 회귀 분석의 함수 lm은 다음과 같습니다.
lm(formula,data,weights,subset,na.action)

formula:모델의 형식을 지정 회귀식 y=a+bx로 하고 싶을 때는 y~x
회귀식 y=bx로 하고 싶을 때는 y~-1+x
data : 데이터 세트의 이름 사용하는 데이터 형식은 데이터 프레임
weights:설명 변수에 대한 가중치(초보자는 무시) 지정하지 않으면 가중치 없음
subset : 데이터 세트의 일부를 사용할 때 사용할 부분을 지정합니다.
na.action : 결측값 취급을 지정 지정이 없을 때는 결측값의 데이터를 제외한 데이터를 이용하여 계산

(2) 이용하는 데이터
cars #速度(speed,第一列)とブレーキ後に止まる時間(dist,第二列)のデータ
plot(cars);cor(cars$speed,cars$dist) #散布図とピアソン相関係数(いわゆる相関係数)をプロット

cars의 데이터는 생략하지만, plot의 결과는 다음과 같이 되어 상관 계수가 0.8068949로 구해집니다. 이 산점도에서 속도와 dist 사이에는 상관 관계가 있음을 알 수 있습니다.


(3) 해석 결과
cars.lm<-lm(dist~speed,data=cars)
summary(cars.lm)

speed를 설명 변수, dist를 목적 변수로 선형 회귀 해석을 한 결과를 cars.lm에 대입하고 있습니다.
또한 summary(cars.lm)에서 해석 결과의 요약을 볼 수 있습니다.


Residuals는 잔차를 나타내며 다음 명령으로도 확인할 수 있습니다.
residuals(cars.lm)

summary의 Coefficients는 회귀 직선 $\hat{y}=a+bx_{i}$의 회귀 계수를 나타내며,
Intercept의 행에는 계수 $a$의 추측치, 표준 오차, $t$값, $p$값이,
speed의 행에는 추측값과 관련된 통계량이 기록되어 있습니다.

함수 round를 사용하면 소수점을 반올림 할 수 있습니다.
round(coefficients(cars.lm),2) # 小数点第二位までで丸めている

이 결과를 사용하면 회귀식은 dist = -17.58 + 3.93 $\times$ speed로 쓸 수 있습니다.

좋은 웹페이지 즐겨찾기