깔끔한 화요일 — 등록금 데이터

4963 단어 datascience

깔끔한 화요일 — 등록금 데이터



Tidy Tuesday은 주간 미니 데이터 과학 챌린지입니다. 부담감 없이 데이터 분석 기술을 연습할 수 있는 좋은 방법입니다. 데이터 사이트는 월요일에 게시되며 화요일에는 사람들이 #tidytuesdays를 통해 Twitter에서 수행한 작업을 공유합니다. 사람들이 놀라운 그래픽을 공유하는 것을 보았습니다. R 커뮤니티와 연결되어 있지만 원하는 기술 스택을 자유롭게 사용할 수 있습니다.

이 블로그 게시물에서는 2018년 repo에 게시된 US Tuition Costs 수업료 데이터 세트를 분석할 것입니다. 시작하기 전에 깔끔한 데이터 세트의 특성을 알아야 합니다.

이러한 특성에 대한 알림
  • 각 변수에는 자체 열이 있어야 합니다.
  • 각 관찰에는 자체 행이 있어야 합니다.
  • 각 값에는 자체 셀이 있어야 합니다.

  • 정돈된 분석을 시작하는 방법에 대해 자세히 알아보려면 이전 blog을 읽어보십시오.

    코드를 작성하기 전에 데이터 세트에 대해 알고 싶습니다. 각각의 깔끔한 화요일 데이터 세트에는 소스 및 기사에 대한 링크가 함께 제공됩니다. 그래서 미리 기사를 검토합니다. 다음으로 데이터를 가져오고 데이터 구조를 살펴볼 차례입니다.

    library('tidyverse')
    library('readxl')
    library('here')
    tuition <- read_excel('us_avg_tuition.xlsx')
    
    glimpse(tuition)
    




    이것은 데이터 프레임을 빠르게 엿볼 수 있는 것입니다. 여기에는 미국의 각 주를 나타내는 50개의 행과 2004-2016년을 나타내는 열이 있습니다. 이 데이터 세트는 깔끔한 데이터 세트가 아닙니다. 이 데이터 세트는 깔끔해야 한다는 첫 번째 규칙을 깨뜨립니다.
  • 각 변수에는 자체 열이 있어야 합니다.

  • 데이터 세트의 연도는 하나의 열에 있어야 합니다. 여러 열에 분산되어서는 안 됩니다. 이 작업을 수행하기 위해 이 테이블을 피벗할 것입니다. 또한 연도 열에 2004–05라는 레이블이 어떻게 지정되어 있는지 확인하십시오. 이 칼럼을 이런 식으로 참조하는 것은 골칫거리가 될 것입니다. 따라서 일부 정규식을 사용하여 대시와 연도의 마지막 두 자리를 제거해 보겠습니다. 정규식에 대해 자세히 알아보려면 내 블로그 게시물REGEX 101을 참조하십시오.

    tidy_tuition <- tuition %>%
      pivot_longer(-State,names_to="year",values_to="cost") %>% 
      mutate(year = gsub("\\-\\d+$","",year))
    






    연도는 이제 문자열 유형입니다. 정수 데이터 유형을 선호합니다.

    tidy_tuition$year <-as.integer(tidy_tuition$year)
    




    이제 이것은 깔끔한 데이터 세트입니다. 이제 분석을 수행하기 위해 tidyverse의 함수를 사용할 수 있습니다. 다음으로 질문이 있습니다.

    질문



    2015년 등록금이 가장 저렴한 주는 어디였습니까?



    2015년 등록금이 가장 비싼 주가 어디였습니까?



    2004년부터 2016년까지 일리노이 등록금은 얼마입니까?



    일리노이주의 수업료를 정확하게 예측하기 위해 선형 회귀 모델을 만들 수 있습니까?



    내 질문에 대답할 수 있는지 봅시다.

    2015년 등록금이 가장 저렴한 주는 어디였습니까?



    2015년 등록금이 가장 비싼 주가 어디였습니까?




    latest_cost <- tidy_tuition %>%
      filter(year == 2015)
    
    latest_cost[which.min(latest_cost$cost),]
    
    latest_cost[which.max(latest_cost$cost),]
    


    와이오밍주는 2015년 등록금이 $4,891로 가장 저렴했습니다.

    뉴햄프셔는 2015년 등록금이 가장 높았으며 등록금은 $15,160였습니다.

    2009년부터 2015년까지 일리노이 등록금은 얼마입니까?




    illinois_cost <- tidy_tuition %>%
      filter(State == "Illinois")
    
    ggplot(illinois_cost,aes(x=year,y=cost)) +geom_line()
    




    일리노이주의 수업료를 정확하게 예측하기 위해 선형 회귀 모델을 만들 수 있습니까?



    tidy_tuition 데이터 세트의 일리노이 하위 집합에서 선형 회귀 모델을 만들 것입니다.

    future_cost <- lm(cost ~ year, data = illinois_cost)
    summary(future_cost)
    
    predicted_cost <- predict(future_cost, illinois_cost)
    
    illinois_cost %>% mutate(prediction = predicted_cost)
    


    future_cost 변수는 선형 회귀 모델입니다.



    전체 연도는 일리노이주의 수업료를 결정하는 매우 중요한 변수입니다. 그것을 통과하는 각각은 수업료와 함께 약 $469.10 인상되는 것 같습니다.

    이제 실제 비용과 예상 비용을 비교해 보겠습니다.



    시각적으로 모델의 예측은 실제 비용과 크게 다르지 않습니다.

    좋은 웹페이지 즐겨찾기