깔끔한 화요일 — 등록금 데이터

4963 단어 datascience

깔끔한 화요일 — 등록금 데이터

Tidy Tuesday은 주간 미니 데이터 과학 챌린지입니다. 부담감 없이 데이터 분석 기술을 연습할 수 있는 좋은 방법입니다. 데이터 사이트는 월요일에 게시되며 화요일에는 사람들이 #tidytuesdays를 통해 Twitter에서 수행한 작업을 공유합니다. 사람들이 놀라운 그래픽을 공유하는 것을 보았습니다. R 커뮤니티와 연결되어 있지만 원하는 기술 스택을 자유롭게 사용할 수 있습니다.

이 블로그 게시물에서는 2018년 repo에 게시된 US Tuition Costs 수업료 데이터 세트를 분석할 것입니다. 시작하기 전에 깔끔한 데이터 세트의 특성을 알아야 합니다.

이러한 특성에 대한 알림

각 변수에는 자체 열이 있어야 합니다.

각 관찰에는 자체 행이 있어야 합니다.

각 값에는 자체 셀이 있어야 합니다.

정돈된 분석을 시작하는 방법에 대해 자세히 알아보려면 이전 blog을 읽어보십시오.

코드를 작성하기 전에 데이터 세트에 대해 알고 싶습니다. 각각의 깔끔한 화요일 데이터 세트에는 소스 및 기사에 대한 링크가 함께 제공됩니다. 그래서 미리 기사를 검토합니다. 다음으로 데이터를 가져오고 데이터 구조를 살펴볼 차례입니다.

library('tidyverse')
library('readxl')
library('here')
tuition <- read_excel('us_avg_tuition.xlsx')

glimpse(tuition)

이것은 데이터 프레임을 빠르게 엿볼 수 있는 것입니다. 여기에는 미국의 각 주를 나타내는 50개의 행과 2004-2016년을 나타내는 열이 있습니다. 이 데이터 세트는 깔끔한 데이터 세트가 아닙니다. 이 데이터 세트는 깔끔해야 한다는 첫 번째 규칙을 깨뜨립니다.

각 변수에는 자체 열이 있어야 합니다.

데이터 세트의 연도는 하나의 열에 있어야 합니다. 여러 열에 분산되어서는 안 됩니다. 이 작업을 수행하기 위해 이 테이블을 피벗할 것입니다. 또한 연도 열에 2004–05라는 레이블이 어떻게 지정되어 있는지 확인하십시오. 이 칼럼을 이런 식으로 참조하는 것은 골칫거리가 될 것입니다. 따라서 일부 정규식을 사용하여 대시와 연도의 마지막 두 자리를 제거해 보겠습니다. 정규식에 대해 자세히 알아보려면 내 블로그 게시물REGEX 101을 참조하십시오.

tidy_tuition <- tuition %>%
  pivot_longer(-State,names_to="year",values_to="cost") %>% 
  mutate(year = gsub("\\-\\d+$","",year))

연도는 이제 문자열 유형입니다. 정수 데이터 유형을 선호합니다.

tidy_tuition$year <-as.integer(tidy_tuition$year)

이제 이것은 깔끔한 데이터 세트입니다. 이제 분석을 수행하기 위해 tidyverse의 함수를 사용할 수 있습니다. 다음으로 질문이 있습니다.

질문

2015년 등록금이 가장 저렴한 주는 어디였습니까?

2015년 등록금이 가장 비싼 주가 어디였습니까?

2004년부터 2016년까지 일리노이 등록금은 얼마입니까?

일리노이주의 수업료를 정확하게 예측하기 위해 선형 회귀 모델을 만들 수 있습니까?

내 질문에 대답할 수 있는지 봅시다.

2015년 등록금이 가장 저렴한 주는 어디였습니까?

2015년 등록금이 가장 비싼 주가 어디였습니까?

latest_cost <- tidy_tuition %>%
  filter(year == 2015)

latest_cost[which.min(latest_cost$cost),]

latest_cost[which.max(latest_cost$cost),]

와이오밍주는 2015년 등록금이 $4,891로 가장 저렴했습니다.

뉴햄프셔는 2015년 등록금이 가장 높았으며 등록금은 $15,160였습니다.

2009년부터 2015년까지 일리노이 등록금은 얼마입니까?

illinois_cost <- tidy_tuition %>%
  filter(State == "Illinois")

ggplot(illinois_cost,aes(x=year,y=cost)) +geom_line()

일리노이주의 수업료를 정확하게 예측하기 위해 선형 회귀 모델을 만들 수 있습니까?

tidy_tuition 데이터 세트의 일리노이 하위 집합에서 선형 회귀 모델을 만들 것입니다.

future_cost <- lm(cost ~ year, data = illinois_cost)
summary(future_cost)

predicted_cost <- predict(future_cost, illinois_cost)

illinois_cost %>% mutate(prediction = predicted_cost)

future_cost 변수는 선형 회귀 모델입니다.

전체 연도는 일리노이주의 수업료를 결정하는 매우 중요한 변수입니다. 그것을 통과하는 각각은 수업료와 함께 약 $469.10 인상되는 것 같습니다.

이제 실제 비용과 예상 비용을 비교해 보겠습니다.

시각적으로 모델의 예측은 실제 비용과 크게 다르지 않습니다.

Reference

이 문제에 관하여(깔끔한 화요일 — 등록금 데이터), 우리는 이곳에서 더 많은 자료를 발견하고 링크를 클릭하여 보았다 https://dev.to/zaynaib/tidy-tuesday-tuition-data-17g4

텍스트를 자유롭게 공유하거나 복사할 수 있습니다.하지만 이 문서의 URL은 참조 URL로 남겨 두십시오.

우수한 개발자 콘텐츠 발견에 전념 (Collection and Share based on the CC Protocol.)

【Unity】Unity의 내비게이션 기능을 사용해 캐릭터를 달리게 한다

양식 및 웹 구성 요소만 사용하는 보다 확장 가능한 애플리케이션

좋은 웹페이지 즐겨찾기

개발자 우수 사이트 수집

개발자가 알아야 할 필수 사이트 100선 추천 우리는 당신을 위해 100개의 자주 사용하는 개발자 학습 사이트를 정리했습니다