Pandas (6)

🥴 Pandas (6)

📌 Pivot Table

내가 뽑은 여러 개의 칼럼을 행과 열로 설정해서 조회하고 싶은 값을 찾아서 볼 수 있게 만든다.

  • index와 columns는 분류의 기준이다.
  • values는 조회하고 싶은 값들이다.
 pd.pivot_table(df, index='내가 원하는 칼럼', columns='내가 원하는 칼럼', 
 values='내가 원하는 칼럼')

기본적으로 겹치는 값이 있으면 평균값을 출력한다. 하지만, 원하는 값으로 변경 가능하다.

pd.pivot_table(df, index='내가 원하는 칼럼', columns='내가 원하는 칼럼', 
values='내가 원하는 칼럼', aggfunc=np.sum)
# aggfunc을 이용하여 평균을 출력하는 대신에 총합을 출력하도록 해준다.

📌 GroupBy

그룹 별로 나눠서 통계값을 확인할 수 있다.

df.groupby("원하는 칼럼").알아내고 싶은 통계값 메소드 붙여주기
ex. df.groupby("소속사").count()
# 특정 열만 꺼내고 싶은 경우
df.groupby("원하는 칼럼")["원하는 열"].알아내고 싶은 통계값 메소드 붙여주기

📌 Multi Index

groupby하는 경우에 인덱스를 2개 사용하고 싶은 경우에 이용한다.
순서도 굉장히 중요하다.

df.groupby(["원하는 칼럼1", "원하는 칼럼2"]).알아내고 싶은 통계값 메소드 붙여주기
# 순서도 굉장히 중요하다
  • multi-index 데이터 프레임을 pivot table로도 변경할 수 있다.
df.groupby(["원하는 칼럼1", "원하는 칼럼2"]).알아내고 싶은 통계값 메소드 붙여주기
df.unstack("풀어버리고 싶은 칼럼")
  • multi-index 를 모두 풀어버릴 수도 있다.
    cf. groupby로 요약된 데이터 프레임을 다시 사용하고 싶은 경우에 이용하면 유용하다.
df.reset_index()

😀 마무리...

  • pivot_table
  • groupby
  • multi index
    unstack
    reset_index()

데이터 전처리 하는 경우에 굉장히 많이 이용되기 때문에, 잘 알아두기~!

좋은 웹페이지 즐겨찾기