R 언어 데이터 세트 행렬 교환 기술

2751 단어
현재 여러분께 소개해 드리는 데이터 처리 기교는 장전폭이고 엑셀의 전치에 해당하지만 R 언어로 이루어진 장전폭과 데이터 합병 기능은 당연히 엑셀보다 훨씬 강력합니다.
여기에 4개의 함수를 소개합니다. 그중 melt (), dcast () 는reshape2 패키지에서,gather (), spread () 는tidyr 패키지에서 왔습니다.
1. 너비 길이-melt(),gather()
mydata

결과 내보내기
> mydata1 mydata1
    address   name     Year Sale
1      store1 sale2014 3000
2      store2 sale2014 2500
3      store3 sale2014 2100
4    store4 sale2014 1000
5      store1 sale2015 3020
6      store2 sale2015 2800
7      store3 sale2015 3900
8    store4 sale2015 2000
9      store1 sale2016 5150
10     store2 sale2016 3600
11     store3 sale2016 2700
12   store4 sale2016 2500
13     store1 sale2017 4450
14     store2 sale2017 4100
15     store3 sale2017 4000
16   store4 sale2017 3200

gather () 함수를 어떻게 사용하는지 다시 한 번 봅시다.
> # ——gather
> mydata1 mydata1
     name  address     Year sale
1  store1     sale2014 3000
2  store2     sale2014 2500
3  store3     sale2014 2100
4  store4   sale2014 1000
5  store1     sale2015 3020
6  store2     sale2015 2800
7  store3     sale2015 3900
8  store4   sale2015 2000
9  store1     sale2016 5150
10 store2     sale2016 3600
11 store3     sale2016 2700
12 store4   sale2016 2500
13 store1     sale2017 4450
14 store2     sale2017 4100
15 store3     sale2017 4000
16 store4   sale2017 3200

melt () 함수와 달리gather () 함수는 관건적인 필드 키와 관건적인 필드에 대응하는 값value를 지정해야 하지만gather () 함수는 더욱 잘 이해됩니다.
2. 길이-dcast () 및spread ()
아니면 위의 데이터 1 데이터 집합으로 dcast () 함수를 먼저 보십시오
# ——dcast
dcast(
  data=mydata1,
  name+address~Year
  # , , 
  # 
)
> # ——dcast
> dcast(
+   data=mydata1,
+   name+address~Year
+   # , , 
+   # 
+ )
Using sale as value column: use value.var to override.
    name  address sale2014 sale2015 sale2016 sale2017
1 store1         3000     3020     5150     4450
2 store2         2500     2800     3600     4100
3 store3         2100     3900     2700     4000
4 store4       1000     2000     2500     3200
dcast () 함수의 사용 규칙은 생각해 봐야 이해할 수 있습니다. 여러분 주석 부분을 잘 보시고 spread () 를 보십시오
# ——spread
tidyr::spread(
  data=mydata1,
  key=Year,
  value=sale
)
> # ——spread
> tidyr::spread(
+   data=mydata1,
+   key=Year,
+   value=sale
+ )
    name  address sale2014 sale2015 sale2016 sale2017
1 store1         3000     3020     5150     4450
2 store2         2500     2800     3600     4100
3 store3         2100     3900     2700     4000
4 store4       1000     2000     2500     3200

tidyr::spread를 직접 호출하려면 관건적인 필드 키와 대응하는 값value를 지정해야 합니다.
하지만 이해를 보면 저는 개인적으로tidyr 패키지의 함수를 더 좋아합니다. 사용이 뚜렷합니다. 여러분은 실제 상황에 따라 스스로 선택할 수 있습니다. 자, 오늘의 공유가 끝났습니다. 다음에 뵙겠습니다!

좋은 웹페이지 즐겨찾기