Python 기계 학습 3 대 2 pandas

Pandas
2008 년 위 스 맥 키 니 가 개발 한 라 이브 러 리
데이터 발굴 을 위 한 오픈 소스 python 라 이브 러 리
Numpy 를 바탕 으로 Numpy 모듈 의 컴 퓨 팅 성능 이 높 은 장점 을 빌 립 니 다.
matplotlib 기반 으로 간편 하 게 그림 을 그 릴 수 있 습 니 다.
독특한 데이터 구조
2.데이터 구조
4.567917.Pandas 에는 모두 세 가지 데이터 구조 가 있 는데 그것 이 바로 Series,DataFrame 과 MultiIndex 이다시리즈
Series 는 1 차원 배열 과 유사 한 데이터 구조 로 정수,문자열,부동 소수점 등 모든 유형의 데 이 터 를 저장 할 수 있 으 며 주로 한 그룹의 데이터 와 이와 관련 된 색인 두 부분 으로 구성 된다.
在这里插入图片描述
Series 의 창설

import pandas as pd
pd.Series(np.arange(3))
0 0
1 1
2 2
dtype: int64

#    
pd.Series([6.7,5.6,3,10,2], index=[1,2,3,4,5])
1 6.7
2 5.6
3 3.0
4 10.0
5 2.0
dtype: float64

#        
color_count = pd.Series({'red':100, 'blue':200, 'green': 500, 'yellow':1000})
color_count
blue 200
green 500
red 100
yellow 1000
dtype: int64
Series 의 속성

color_count.index
color_count.values
색인 으로 데 이 터 를 가 져 올 수도 있 습 니 다:

color_count[2]
100
시리즈 정렬
data[‘p_change'].sort_values(ascending=True)\#값 정렬
data[‘p_change'].sort_index()\#색인 정렬
\#series 정렬 시 매개 변수 가 필요 없 는 열 만 있 습 니 다.
4.DataFrame
창설

pd.DataFrame(np.random.randn(2,3))
在这里插入图片描述

score = np.random.randint(40, 100, (10, 5))
score
array([[92, 55, 78, 50, 50],
[71, 76, 50, 48, 96],
[45, 84, 78, 51, 68],
[81, 91, 56, 54, 76],
[86, 66, 77, 67, 95],
[46, 86, 56, 61, 99],
[46, 95, 44, 46, 56],
[80, 50, 45, 65, 57],
[41, 93, 90, 41, 97],
[65, 83, 57, 57, 40]])
그러나 이런 데이터 형식 은 어떤 데이터 가 저장 되 어 있 는 지 보기 어렵 고 가 독성 이 떨어진다!!

#   Pandas      
score_df = pd.DataFrame(score)
在这里插入图片描述
DataFrame 의 속성data.shape
data.index
data.columns
data.values
data.T
data.head(5)
data.tail(5)
data.reset_index(keys, drop=True)
keys:열 색인 이름 이나 열 색인 이름 목록
drop:boolean,default True.새로운 색인 으로 원래 열 을 삭제 합 니 다.
dataframe 기본 데이터 조작data['open']['2018-02-27']\#행렬 색인 이름 을 직접 사용 하 는 방식(선 열 후 행)
data.loc['2018-02-27':'2018-02-22','open']\#loc 사용:행렬 색인 이름 만 지정 할 수 있 습 니 다.
data.iloc[:3,:5]\#iloc 를 사용 하면 색인 아래 표 시 를 통 해 가 져 올 수 있 습 니 다.
data.sort_values(by="open",ascending=True)\#단일 정렬
data.sort_values(by=['open','high'])\#여러 키 로 정렬
data.sort_index()\#색인 정렬
DataFrame 연산
add 등 을 사용 하여 데이터 간 의 더하기,뺄셈 연산 을 실현 합 니 다.
논리 연산 기 호 를 사용 하여 데이터 의 논리 적 선별 을 실현 하 다.
isin,query 를 사용 하여 데이터 선별 을 실현 합 니 다.
describe 를 사용 하여 종합 통 계 를 완성 합 니 다.
max,min,mean,std 를 사용 하여 통계 계산 을 완성 합 니 다.
idxmin,idxmax 를 사용 하여 최대 값 의 최소 값 색인 을 완성 합 니 다.
cumsum 등 을 사용 하여 누적 분석 을 실현 합 니 다.
apply 함 수 를 사용 하여 데이터 의 사용자 정의 처 리 를 실현 합 니 다.
5.pandas.DataFrame.plot
DataFrame.plot(kind=‘line')
kind:str,그림 의 종 류 를 그 려 야 합 니 다.
‘line' : line plot (default)
‘bar' : vertical bar plot
‘barh' : horizontal bar plot
"barh"에 대한 설명:
http://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.plot.barh.html
‘hist' : histogram
‘pie' : pie plot
‘scatter' : scatter plot
6.결함 처리
isnull,notnull 은 부족 한 값 이 있 는 지 판단 합 니 다.
np.any(pd.isnull(movie)\#안에 부족 한 값 이 있 으 면 True 로 돌아 갑 니 다.
np.all(pd.notnull(movie)\#에 부족 한 값 이 있 으 면 False 로 돌아 갑 니 다.
dropna np.nan 태그 의 부족 값 삭제
movie.dropna()
fillna 충전 부족 값
movie[i].fillna(value=movie[i].mean(), inplace=True)
replace 대체
wis.replace(to_replace="?", value=np.NaN)
7.데이터 이산 화

p_change= data['p_change']
#     ,       
qcut = pd.qcut(p_change, 10)
#            
qcut.value_counts()

#         
bins = [-100, -7, -5, -3, 0, 3, 5, 7, 100]
p_counts = pd.cut(p_change, bins)
원-hot 인 코딩 행렬 나 오기

dummies = pd.get_dummies(p_counts, prefix="rise")
#prefix:      
8.데이터 통합
pd.concat([data1, data2], axis=1)
줄 이나 열 에 따라 합 쳐,axis=0 은 열 색인 이 고,axis=1 은 줄 색인 이다.
pd.merge(left, right, how=‘inner', on=None)
두 그룹의 데이터 에 따 른 공동 키 로 병합 하거나 좌우 로 각각 지정 할 수 있 습 니 다.
left: DataFrame
right:다른 DataFrame
on:지정 한 공통 키
어떻게
9.교차 표 와 투시 표
교차 표:한 열 데이터 가 다른 열 데이터 에 대한 그룹 갯 수 투시 표를 계산 합 니 다.특정한 열 이 다른 열 에 대한 관 계 를 지정 합 니 다.

#              
count = pd.crosstab(data['week'], data['posi_neg'])
#     ,            
data.pivot_table(['posi_neg'], index='week')
10.데이터 집합

count = starbucks.groupby(['Country']).count()
col.groupby(['color'])['price1'].mean()
#       ,   
파 이 썬 머 신 학습 3 대 2 pandas 에 관 한 이 글 은 여기까지 소개 되 었 습 니 다.파 이 썬 pandas 에 관 한 더 많은 내용 은 우리 의 이전 글 을 검색 하거나 아래 의 관련 글 을 계속 읽 어 보 세 요.앞으로 많은 응원 부 탁 드 리 겠 습 니 다!

좋은 웹페이지 즐겨찾기