pandas 데이터 전처리 dataframe 의 groupby 조작 방법
dataframe 에서 group by 의 동작 을 보 여 주 었 습 니 다."group by"작업 에 대해 우 리 는 보통 다음 과 같은 작업 절 차 를 말 합 니 다.
l(Splitting)일부 규칙 에 따라 데 이 터 를 다른 그룹 으로 나 눕 니 다.
l(Applying)각 그룹의 데이터 에 대해 각각 하나의 함 수 를 실행 합 니 다.
l(Combining)결 과 를 데이터 구조 에 조합 합 니 다.
dataframe 을 사용 하여 groupby 를 실현 하 는 방법:
# -*- coding: UTF-8 -*-
import pandas as pd
df = pd.DataFrame([{'col1':'a', 'col2':1, 'col3':'aa'}, {'col1':'b', 'col2':2, 'col3':'bb'}, {'col1':'c', 'col2':3, 'col3':'cc'}, {'col1':'a', 'col2':44, 'col3':'aa'}])
print df
# col1 col2
print df.groupby(by='col1').agg({'col2':sum}).reset_index()
# col1 col2
print df.groupby(by='col1').agg({'col2':['max', 'min']}).reset_index()
# col1 ,col3 col2
print df.groupby(by=['col1', 'col3']).agg({'col2':sum}).reset_index()
출력 결 과 는:
col1 col2 col3
0 a 1 aa
1 b 2 bb
2 c 3 cc
3 a 44 aa
col1 col2
0 a 45
1 b 2
2 c 3
col1 col2
max min
0 a 44 1
1 b 2 2
2 c 3 3
col1 col3 col2
0 a aa 45
1 b bb 2
2 c cc 3
주의 점:코드 에서 reset 호출 됨index()함수,이 함수 로 출력 하지 않 으 면 다음 과 같 습 니 다:
col2
col1
a 45
b 2
c 3
col2
max min
col1
a 44 1
b 2 2
c 3 3
col2
col1 col3
a aa 45
b bb 2
c cc 3
상하 두 결 과 는 차이 가 있 지만 구체 적 인 차 이 는 아직 잘 모 르 겠 지만 아래 의 출력 결 과 는 df[col1]을 사용 하여 첫 번 째 열 을 추출 할 수 없습니다.어떤 이유 인지 아직 잘 모 르 겠 습 니 다.pandas 에 대해 이해 하거나 이 유 를 알 고 있다 면 댓 글 에 남 겨 주세요.이상 의 pandas 데이터 전처리 dataframe 의 groupby 조작 방법 은 바로 작은 편집 이 여러분 에 게 공유 하 는 모든 내용 입 니 다.참고 하 시기 바 랍 니 다.여러분 들 도 저 희 를 많이 사랑 해 주 셨 으 면 좋 겠 습 니 다.
이 내용에 흥미가 있습니까?
현재 기사가 여러분의 문제를 해결하지 못하는 경우 AI 엔진은 머신러닝 분석(스마트 모델이 방금 만들어져 부정확한 경우가 있을 수 있음)을 통해 가장 유사한 기사를 추천합니다:
【Pandas】DatetimeIndex란? no.29안녕하세요, 마유미입니다. Pandas에 대한 기사를 시리즈로 작성하고 있습니다. 이번은 제29회의 기사가 됩니다. 에서 Pandas의 시간에 대한 모듈에 대해 씁니다. 이번 기사에서는, 「DatetimeIndex」...
텍스트를 자유롭게 공유하거나 복사할 수 있습니다.하지만 이 문서의 URL은 참조 URL로 남겨 두십시오.
CC BY-SA 2.5, CC BY-SA 3.0 및 CC BY-SA 4.0에 따라 라이센스가 부여됩니다.