Python 데이터 의 누적 과 통계 의 예제 코드

문제.
너 는 매우 큰 데이터 세트 를 처리 하고 데이터 총화 또는 기타 통 계량 을 계산 해 야 한다.
해결 방안
통계,시간 서열 및 기타 관련 기술 과 관련 된 데이터 분석 문제 에 대해 서 는 Pandas 라 이브 러 리 를 사용 하 는 것 을 고려 할 수 있다.
시카고 도시 의 쥐 와 설치 류 동물 데이터 베 이 스 를 분석 하기 위해 Pandas 를 사용 한 예 입 니 다.내 가 이 글 을 쓸 때 이 데이터 베 이 스 는 약 74,000 줄 의 데 이 터 를 가 진 CSV 파일 이 었 다.

>>> import pandas

>>> # Read a CSV file, skipping last line
>>> rats = pandas.read_csv('rats.csv', skip_footer=1)
>>> rats
<class 'pandas.core.frame.DataFrame'>
Int64Index: 74055 entries, 0 to 74054
Data columns:
Creation Date 74055 non-null values
Status 74055 non-null values
Completion Date 72154 non-null values
Service Request Number 74055 non-null values
Type of Service Request 74055 non-null values
Number of Premises Baited 65804 non-null values
Number of Premises with Garbage 65600 non-null values
Number of Premises with Rats 65752 non-null values
Current Activity 66041 non-null values
Most Recent Action 66023 non-null values
Street Address 74055 non-null values
ZIP Code 73584 non-null values
X Coordinate 74043 non-null values
Y Coordinate 74043 non-null values
Ward 74044 non-null values
Police District 74044 non-null values
Community Area 74044 non-null values
Latitude 74043 non-null values
Longitude 74043 non-null values
Location 74043 non-null values
dtypes: float64(11), object(9)

>>> # Investigate range of values for a certain field
>>> rats['Current Activity'].unique()
array([nan, Dispatch Crew, Request Sanitation Inspector], dtype=object)
>>> # Filter the data
>>> crew_dispatched = rats[rats['Current Activity'] == 'Dispatch Crew']
>>> len(crew_dispatched)
65676
>>>

>>> # Find 10 most rat-infested ZIP codes in Chicago
>>> crew_dispatched['ZIP Code'].value_counts()[:10]
60647 3837
60618 3530
60614 3284
60629 3251
60636 2801
60657 2465
60641 2238
60609 2206
60651 2152
60632 2071
>>>

>>> # Group by completion date
>>> dates = crew_dispatched.groupby('Completion Date')
<pandas.core.groupby.DataFrameGroupBy object at 0x10d0a2a10>
>>> len(dates)
472
>>>

>>> # Determine counts on each day
>>> date_counts = dates.size()
>>> date_counts[0:10]
Completion Date
01/03/2011 4
01/03/2012 125
01/04/2011 54
01/04/2012 38
01/05/2011 78
01/05/2012 100
01/06/2011 100
01/06/2012 58
01/07/2011 1
01/09/2012 12
>>>

>>> # Sort the counts
>>> date_counts.sort()
>>> date_counts[-10:]
Completion Date
10/12/2012 313
10/21/2011 314
09/20/2011 316
10/26/2011 319
02/22/2011 325
10/26/2012 333
03/17/2011 336
10/13/2011 378
10/14/2011 391
10/07/2011 457
>>>
음,2011 년 10 월 7 일 은 쥐 들 에 게 바 쁜 날인 가 봐 요!^ ^
토론 하 다.
Pandas 는 많은 특성 을 가 진 대형 함수 라 이브 러 리 입 니 다.저 는 여기 서 소 개 를 다 할 수 없습니다.그러나 대형 데이터 집합 을 분석 하고 데이터 그룹 을 나 누 며 각종 통 계량 이나 다른 유사 한 임 무 를 계산 해 야 한다 면 이 함수 라 이브 러 리 는 정말 네가 가서 볼 만하 다.
이상 은 Python 데이터 의 누적 과 통계 방법 에 대한 상세 한 내용 입 니 다.Python 데이터 의 누적 과 통계 에 관 한 자 료 는 우리 의 다른 관련 글 을 주목 하 세 요!

좋은 웹페이지 즐겨찾기