앙케이트 조사 데이터를 분석해 본다【제2회:중회귀 분석】
다중 회귀 분석은 하나의 목적 변수를 여러 설명 변수로 설명하거나 예측하는 기법입니다. 이번에는 다음 사이트에서 대학 수업에 관한 설문지 데이터를 사용합니다.
① 이번에도 R을 사용하여 분석합니다. 먼저 데이터를 읽습니다.
data <- read.csv("data6-4.csv")
head(data)
이번 분석에서는 "Evaluation(평가)"을 목적 변수, "Difficulty.level(난이도의 높이)", "Private.language(사어의 많음)", "Understanding(이해도의 높이)"변수입니다. 각 설명 변수가 수업 평가에 얼마나 영향을 미치는지 목표 변수에 대한 설명 변수의 기여도를 분석합니다.
②변수간의 상관을 확인해 봅시다.
cor(data)
난이도와 평가에는 부의 상관이 있는 것 등을 알 수 있습니다.
③이어서 lm 함수를 사용하여 중회귀 분석을 수행하여 결과를 표시합니다.
output <- lm(data$Evaluation~data$Difficulty.level + data$Private.language + data$Understanding)
summary(output)
목표 변수에 대한 각 설명 변수의 기여도에 대해서는 먼저 t 값을 나타내는 "t value"에 주목합니다. 이것은 각각의 설명 변수가 목적 변수에 미치는 영향의 크기를 나타내며, 절대치가 클수록 영향이 강하게 됩니다. 여기에서는, 난이도와 사어가 마이너스, 이해도가 플러스가 되어 있어 각각 목적 변수에 대해서 부의 영향, 양의 영향이 있는 것을 알 수 있습니다.
다음으로 p값을 나타내는 「Pr(>|t|)」를 보자. 이것은 각각의 설명 변수가 통계적으로 유의한지를 나타내는 것으로, 일반적으로는 0.05 미만인지의 여부로, 그 변수가 통계적으로 의미를 가지는지를 판단합니다. 이번에는 모두 0.05 이하로 되어 있으며, 각각의 설명 변수는 목적 변수에 유의한 영향이 있다고 해석할 수 있습니다.
이 밖에 「Multiple R-squared」는 결정 계수를 가리키고, 모델의 설명력의 높이(맞춤의 좋은 점)를 0~1로 나타내고 있습니다. 일반적으로 이 수치가 0.5 이상이라면 어느 정도의 설명력이 있다고 되어 있으며, 이번에는 0.6825로 최상의 결과라는 것을 알 수 있습니다.
이번 데이터에서 말할 수 있는 것은 내용이 어려워서 학생의 사어가 많은 수업은 평가가 낮아지기 쉽고, 알기 쉽고 높아지기 쉽다는 것을 알 수 있습니다. (당연하다고 하면 당연하지만..)
다중 회귀 분석을 통해 설명 변수를 기반으로 목표 변수를 예측할 수 있습니다. 이쪽에 대해서는, 또 다른 기회에 임해 보고 싶습니다.
Reference
이 문제에 관하여(앙케이트 조사 데이터를 분석해 본다【제2회:중회귀 분석】), 우리는 이곳에서 더 많은 자료를 발견하고 링크를 클릭하여 보았다 https://qiita.com/esaeki/items/41a0aef72435204add40텍스트를 자유롭게 공유하거나 복사할 수 있습니다.하지만 이 문서의 URL은 참조 URL로 남겨 두십시오.
우수한 개발자 콘텐츠 발견에 전념 (Collection and Share based on the CC Protocol.)