앙케이트 조사 데이터를 분석해 본다【제2회:중회귀 분석】

전회에 이어, 이번은 중회귀 분석을 이용해 앙케이트 데이터를 분석해 보고 싶습니다.

다중 회귀 분석은 하나의 목적 변수를 여러 설명 변수로 설명하거나 예측하는 기법입니다. 이번에는 다음 사이트에서 대학 수업에 관한 설문지 데이터를 사용합니다.

① 이번에도 R을 사용하여 분석합니다. 먼저 데이터를 읽습니다.
data <- read.csv("data6-4.csv")
head(data)



이번 분석에서는 "Evaluation(평가)"을 목적 변수, "Difficulty.level(난이도의 높이)", "Private.language(사어의 많음)", "Understanding(이해도의 높이)"변수입니다. 각 설명 변수가 수업 평가에 얼마나 영향을 미치는지 목표 변수에 대한 설명 변수의 기여도를 분석합니다.

②변수간의 상관을 확인해 봅시다.
cor(data)



난이도와 평가에는 부의 상관이 있는 것 등을 알 수 있습니다.

③이어서 lm 함수를 사용하여 중회귀 분석을 수행하여 결과를 표시합니다.
output <- lm(data$Evaluation~data$Difficulty.level + data$Private.language + data$Understanding)
summary(output)



목표 변수에 대한 각 설명 변수의 기여도에 대해서는 먼저 t 값을 나타내는 "t value"에 주목합니다. 이것은 각각의 설명 변수가 목적 변수에 미치는 영향의 크기를 나타내며, 절대치가 클수록 영향이 강하게 됩니다. 여기에서는, 난이도와 사어가 마이너스, 이해도가 플러스가 되어 있어 각각 목적 변수에 대해서 부의 영향, 양의 영향이 있는 것을 알 수 있습니다.

다음으로 p값을 나타내는 「Pr(>|t|)」를 보자. 이것은 각각의 설명 변수가 통계적으로 유의한지를 나타내는 것으로, 일반적으로는 0.05 미만인지의 여부로, 그 변수가 통계적으로 의미를 가지는지를 판단합니다. 이번에는 모두 0.05 이하로 되어 있으며, 각각의 설명 변수는 목적 변수에 유의한 영향이 있다고 해석할 수 있습니다.

이 밖에 「Multiple R-squared」는 결정 계수를 가리키고, 모델의 설명력의 높이(맞춤의 좋은 점)를 0~1로 나타내고 있습니다. 일반적으로 이 수치가 0.5 이상이라면 어느 정도의 설명력이 있다고 되어 있으며, 이번에는 0.6825로 최상의 결과라는 것을 알 수 있습니다.

이번 데이터에서 말할 수 있는 것은 내용이 어려워서 학생의 사어가 많은 수업은 평가가 낮아지기 쉽고, 알기 쉽고 높아지기 쉽다는 것을 알 수 있습니다. (당연하다고 하면 당연하지만..)

다중 회귀 분석을 통해 설명 변수를 기반으로 목표 변수를 예측할 수 있습니다. 이쪽에 대해서는, 또 다른 기회에 임해 보고 싶습니다.

좋은 웹페이지 즐겨찾기