깔끔한 화요일 — 등록금 데이터
4963 단어 datascience
깔끔한 화요일 — 등록금 데이터
Tidy Tuesday은 주간 미니 데이터 과학 챌린지입니다. 부담감 없이 데이터 분석 기술을 연습할 수 있는 좋은 방법입니다. 데이터 사이트는 월요일에 게시되며 화요일에는 사람들이 #tidytuesdays를 통해 Twitter에서 수행한 작업을 공유합니다. 사람들이 놀라운 그래픽을 공유하는 것을 보았습니다. R 커뮤니티와 연결되어 있지만 원하는 기술 스택을 자유롭게 사용할 수 있습니다.
이 블로그 게시물에서는 2018년 repo에 게시된 US Tuition Costs 수업료 데이터 세트를 분석할 것입니다. 시작하기 전에 깔끔한 데이터 세트의 특성을 알아야 합니다.
이러한 특성에 대한 알림
정돈된 분석을 시작하는 방법에 대해 자세히 알아보려면 이전 blog을 읽어보십시오.
코드를 작성하기 전에 데이터 세트에 대해 알고 싶습니다. 각각의 깔끔한 화요일 데이터 세트에는 소스 및 기사에 대한 링크가 함께 제공됩니다. 그래서 미리 기사를 검토합니다. 다음으로 데이터를 가져오고 데이터 구조를 살펴볼 차례입니다.
library('tidyverse')
library('readxl')
library('here')
tuition <- read_excel('us_avg_tuition.xlsx')
glimpse(tuition)
이것은 데이터 프레임을 빠르게 엿볼 수 있는 것입니다. 여기에는 미국의 각 주를 나타내는 50개의 행과 2004-2016년을 나타내는 열이 있습니다. 이 데이터 세트는 깔끔한 데이터 세트가 아닙니다. 이 데이터 세트는 깔끔해야 한다는 첫 번째 규칙을 깨뜨립니다.
데이터 세트의 연도는 하나의 열에 있어야 합니다. 여러 열에 분산되어서는 안 됩니다. 이 작업을 수행하기 위해 이 테이블을 피벗할 것입니다. 또한 연도 열에 2004–05라는 레이블이 어떻게 지정되어 있는지 확인하십시오. 이 칼럼을 이런 식으로 참조하는 것은 골칫거리가 될 것입니다. 따라서 일부 정규식을 사용하여 대시와 연도의 마지막 두 자리를 제거해 보겠습니다. 정규식에 대해 자세히 알아보려면 내 블로그 게시물REGEX 101을 참조하십시오.
tidy_tuition <- tuition %>%
pivot_longer(-State,names_to="year",values_to="cost") %>%
mutate(year = gsub("\\-\\d+$","",year))
연도는 이제 문자열 유형입니다. 정수 데이터 유형을 선호합니다.
tidy_tuition$year <-as.integer(tidy_tuition$year)
이제 이것은 깔끔한 데이터 세트입니다. 이제 분석을 수행하기 위해 tidyverse의 함수를 사용할 수 있습니다. 다음으로 질문이 있습니다.
질문
2015년 등록금이 가장 저렴한 주는 어디였습니까?
2015년 등록금이 가장 비싼 주가 어디였습니까?
2004년부터 2016년까지 일리노이 등록금은 얼마입니까?
일리노이주의 수업료를 정확하게 예측하기 위해 선형 회귀 모델을 만들 수 있습니까?
내 질문에 대답할 수 있는지 봅시다.
2015년 등록금이 가장 저렴한 주는 어디였습니까?
2015년 등록금이 가장 비싼 주가 어디였습니까?
latest_cost <- tidy_tuition %>%
filter(year == 2015)
latest_cost[which.min(latest_cost$cost),]
latest_cost[which.max(latest_cost$cost),]
와이오밍주는 2015년 등록금이 $4,891로 가장 저렴했습니다.
뉴햄프셔는 2015년 등록금이 가장 높았으며 등록금은 $15,160였습니다.
2009년부터 2015년까지 일리노이 등록금은 얼마입니까?
illinois_cost <- tidy_tuition %>%
filter(State == "Illinois")
ggplot(illinois_cost,aes(x=year,y=cost)) +geom_line()
일리노이주의 수업료를 정확하게 예측하기 위해 선형 회귀 모델을 만들 수 있습니까?
tidy_tuition 데이터 세트의 일리노이 하위 집합에서 선형 회귀 모델을 만들 것입니다.
future_cost <- lm(cost ~ year, data = illinois_cost)
summary(future_cost)
predicted_cost <- predict(future_cost, illinois_cost)
illinois_cost %>% mutate(prediction = predicted_cost)
future_cost 변수는 선형 회귀 모델입니다.
전체 연도는 일리노이주의 수업료를 결정하는 매우 중요한 변수입니다. 그것을 통과하는 각각은 수업료와 함께 약 $469.10 인상되는 것 같습니다.
이제 실제 비용과 예상 비용을 비교해 보겠습니다.
시각적으로 모델의 예측은 실제 비용과 크게 다르지 않습니다.
Reference
이 문제에 관하여(깔끔한 화요일 — 등록금 데이터), 우리는 이곳에서 더 많은 자료를 발견하고 링크를 클릭하여 보았다
https://dev.to/zaynaib/tidy-tuesday-tuition-data-17g4
텍스트를 자유롭게 공유하거나 복사할 수 있습니다.하지만 이 문서의 URL은 참조 URL로 남겨 두십시오.
우수한 개발자 콘텐츠 발견에 전념
(Collection and Share based on the CC Protocol.)
2015년 등록금이 가장 비싼 주가 어디였습니까?
2004년부터 2016년까지 일리노이 등록금은 얼마입니까?
일리노이주의 수업료를 정확하게 예측하기 위해 선형 회귀 모델을 만들 수 있습니까?
내 질문에 대답할 수 있는지 봅시다.
2015년 등록금이 가장 저렴한 주는 어디였습니까?
2015년 등록금이 가장 비싼 주가 어디였습니까?
latest_cost <- tidy_tuition %>%
filter(year == 2015)
latest_cost[which.min(latest_cost$cost),]
latest_cost[which.max(latest_cost$cost),]
와이오밍주는 2015년 등록금이 $4,891로 가장 저렴했습니다.
뉴햄프셔는 2015년 등록금이 가장 높았으며 등록금은 $15,160였습니다.
2009년부터 2015년까지 일리노이 등록금은 얼마입니까?
illinois_cost <- tidy_tuition %>%
filter(State == "Illinois")
ggplot(illinois_cost,aes(x=year,y=cost)) +geom_line()
일리노이주의 수업료를 정확하게 예측하기 위해 선형 회귀 모델을 만들 수 있습니까?
tidy_tuition 데이터 세트의 일리노이 하위 집합에서 선형 회귀 모델을 만들 것입니다.
future_cost <- lm(cost ~ year, data = illinois_cost)
summary(future_cost)
predicted_cost <- predict(future_cost, illinois_cost)
illinois_cost %>% mutate(prediction = predicted_cost)
future_cost 변수는 선형 회귀 모델입니다.
전체 연도는 일리노이주의 수업료를 결정하는 매우 중요한 변수입니다. 그것을 통과하는 각각은 수업료와 함께 약 $469.10 인상되는 것 같습니다.
이제 실제 비용과 예상 비용을 비교해 보겠습니다.
시각적으로 모델의 예측은 실제 비용과 크게 다르지 않습니다.
Reference
이 문제에 관하여(깔끔한 화요일 — 등록금 데이터), 우리는 이곳에서 더 많은 자료를 발견하고 링크를 클릭하여 보았다
https://dev.to/zaynaib/tidy-tuesday-tuition-data-17g4
텍스트를 자유롭게 공유하거나 복사할 수 있습니다.하지만 이 문서의 URL은 참조 URL로 남겨 두십시오.
우수한 개발자 콘텐츠 발견에 전념
(Collection and Share based on the CC Protocol.)
일리노이주의 수업료를 정확하게 예측하기 위해 선형 회귀 모델을 만들 수 있습니까?
내 질문에 대답할 수 있는지 봅시다.
2015년 등록금이 가장 저렴한 주는 어디였습니까?
2015년 등록금이 가장 비싼 주가 어디였습니까?
latest_cost <- tidy_tuition %>%
filter(year == 2015)
latest_cost[which.min(latest_cost$cost),]
latest_cost[which.max(latest_cost$cost),]
와이오밍주는 2015년 등록금이 $4,891로 가장 저렴했습니다.
뉴햄프셔는 2015년 등록금이 가장 높았으며 등록금은 $15,160였습니다.
2009년부터 2015년까지 일리노이 등록금은 얼마입니까?
illinois_cost <- tidy_tuition %>%
filter(State == "Illinois")
ggplot(illinois_cost,aes(x=year,y=cost)) +geom_line()
일리노이주의 수업료를 정확하게 예측하기 위해 선형 회귀 모델을 만들 수 있습니까?
tidy_tuition 데이터 세트의 일리노이 하위 집합에서 선형 회귀 모델을 만들 것입니다.
future_cost <- lm(cost ~ year, data = illinois_cost)
summary(future_cost)
predicted_cost <- predict(future_cost, illinois_cost)
illinois_cost %>% mutate(prediction = predicted_cost)
future_cost 변수는 선형 회귀 모델입니다.
전체 연도는 일리노이주의 수업료를 결정하는 매우 중요한 변수입니다. 그것을 통과하는 각각은 수업료와 함께 약 $469.10 인상되는 것 같습니다.
이제 실제 비용과 예상 비용을 비교해 보겠습니다.
시각적으로 모델의 예측은 실제 비용과 크게 다르지 않습니다.
Reference
이 문제에 관하여(깔끔한 화요일 — 등록금 데이터), 우리는 이곳에서 더 많은 자료를 발견하고 링크를 클릭하여 보았다
https://dev.to/zaynaib/tidy-tuesday-tuition-data-17g4
텍스트를 자유롭게 공유하거나 복사할 수 있습니다.하지만 이 문서의 URL은 참조 URL로 남겨 두십시오.
우수한 개발자 콘텐츠 발견에 전념
(Collection and Share based on the CC Protocol.)
latest_cost <- tidy_tuition %>%
filter(year == 2015)
latest_cost[which.min(latest_cost$cost),]
latest_cost[which.max(latest_cost$cost),]
illinois_cost <- tidy_tuition %>%
filter(State == "Illinois")
ggplot(illinois_cost,aes(x=year,y=cost)) +geom_line()
future_cost <- lm(cost ~ year, data = illinois_cost)
summary(future_cost)
predicted_cost <- predict(future_cost, illinois_cost)
illinois_cost %>% mutate(prediction = predicted_cost)
Reference
이 문제에 관하여(깔끔한 화요일 — 등록금 데이터), 우리는 이곳에서 더 많은 자료를 발견하고 링크를 클릭하여 보았다 https://dev.to/zaynaib/tidy-tuesday-tuition-data-17g4텍스트를 자유롭게 공유하거나 복사할 수 있습니다.하지만 이 문서의 URL은 참조 URL로 남겨 두십시오.
우수한 개발자 콘텐츠 발견에 전념 (Collection and Share based on the CC Protocol.)