python pandas 라 이브 러 리 설치 및 생 성

pandas 은 데이터 분석 인원 에 게 모두 익숙 해 야 할 제3자 창고 로 pandas 은 과학 계산 에 있어 큰 장점 을 가진다.특히 데이터 분석 인원 에 게 상당히 중요 하 다.python 에는 Numpy 이 있 지만 Numpy 은 비교적 수학 화 되 었 고 라 이브 러 리 가 더욱 구체 적 인 대표 데이터 모델 이 필요 하 다.우 리 는 데이터 처리 에서 EXCEL 이 매우 중요 한 역할 을 하 는 것 을 잘 알 고 있다.표 의 모델 은 데이터 모델 의 가장 좋 은 표현 형식 이다.pandas 은 표 데이터 모델 이 python 에서 의 시 뮬 레이 션 으로 SQL 과 같은 간단 한 데이터 처 리 를 통 해 python 에서 편리 하 게 실현 할 수 있 습 니 다.
pandas 설치pandas python 에 설 치 된 설치 와 같은 사용 pip 진행:

pip install pandas
pandas 생 성 대상pandas 은 두 가지 데이터 구조 가 있 는데 SeriesDataFrame 이다.
SeriesSeries 은 python 의 데이터 list 과 같이 모든 데이터 에 자신의 색인 이 있 습 니 다.list 에서 Series 을 만 듭 니 다.

>>> import pandas as pd
>>> s1 = pd.Series([100,23,'bugingcode'])
>>> s1
0   100
1   23
2 bugingcode
dtype: object
>>>
Series 에 해당 하 는 색인 을 추가 합 니 다.

>>> import numpy as np
>>> ts = pd.Series(np.random.randn(365), index=np.arange(1,366))
>>> ts
index 에 색인 값 을 설정 하 는 것 은 1 에서 366 까지 의 값 입 니 다.Series 의 데이터 구조 가 가장 비슷 한 것 은 python 의 사전 입 니 다.사전 에서 Series 을 만 듭 니 다.

sd = {'xiaoming':14,'tom':15,'john':13}
s4 = pd.Series(sd)
이때 Series 이 자체 색인 index 임 을 볼 수 있다.pandas 자체 가 python 의 다른 제3자 창고 Matplotlib 과 많은 연결 이 있 습 니 다.Matplotlib 하 나 는 데 이 터 를 보 여 주 는 데 가장 많이 사용 되 는 것 입 니 다.Matplotlib 에 대해 잘 모 르 면 뒤의 장 을 소개 합 니 다.지금 가 져 와 서 직접 사용 하 겠 습 니 다.아직 설치 되 지 않 았 다 면 똑 같은 pip 명령 으로 pip install Matplotlib 을 설치 합 니 다.다음 데이터 보 여주 기:

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

ts = pd.Series(np.random.randn(365), index=np.arange(1,366))
ts.plot()
plt.show()

불규칙 한 도형 으로 데이터 분석 에서 시간 은 중요 한 특성 이다.많은 데 이 터 는 시간 과 관계 가 있 고 매출 은 시간 과 관계 가 있 으 며 날 씨 는 시간 과 관계 가 있 기 때문이다.pandas 에서 도 시간 에 관 한 함 수 를 제 공 했 고 date_range 을 사용 하여 일련의 시간 을 생 성 했다.

>>> pd.date_range('01/01/2017',periods=365)
DatetimeIndex(['2017-01-01', '2017-01-02', '2017-01-03', '2017-01-04',
    '2017-01-05', '2017-01-06', '2017-01-07', '2017-01-08',
    '2017-01-09', '2017-01-10',
    ...
    '2017-12-22', '2017-12-23', '2017-12-24', '2017-12-25',
    '2017-12-26', '2017-12-27', '2017-12-28', '2017-12-29',
    '2017-12-30', '2017-12-31'],
    dtype='datetime64[ns]', length=365, freq='D')
>>>
이전에 우리 의 도형 이 불규칙 한 이 유 는 데이터 가 연속 되 지 않 았 기 때문이다.cumsum 을 사용 하여 데 이 터 를 연속 시 켰 다.
다음 과 같다.

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

ts = pd.Series(np.random.randn(365), index=pd.date_range('01/01/2017',periods=365))
ts = ts.cumsum()
ts.plot()
plt.show()

DataFrameDataFrameSeries 1 차원 의 확장 에 해당 하 는 2 차원 데이터 모델 로 EXcel 표 의 데이터 에 해당 하 며 가로 두 개의 좌표 가 있 습 니 다.가로 축 은 Series 과 같이 index 를 사용 하고 세로 축 은 columns 로 확인 합 니 다.DataFrame 대상 을 구축 할 때 세 가지 요 소 를 확인 해 야 합 니 다.데이터,가로 축,세로 축.

df = pd.DataFrame(np.random.randn(8,6), index=pd.date_range('01/01/2018',periods=8),columns=list('ABCDEF'))
print df
데 이 터 는 다음 과 같 습 니 다.

     A   B   C   D   E   F
2018-01-01 0.712636 0.546680 -0.847866 -0.629005 2.152686 0.563907
2018-01-02 -1.292799 1.122098 0.743293 0.656412 0.989738 2.468200
2018-01-03 1.762894 0.783614 -0.301468 0.289608 -0.780844 0.873074
2018-01-04 -0.818066 1.629542 -0.595451 0.910141 0.160980 0.306660
2018-01-05 2.008658 0.456592 -0.839597 1.615013 0.718422 -0.564584
2018-01-06 0.480893 0.724015 -1.076434 -0.253731 0.337147 -0.028212
2018-01-07 -0.672501 0.739550 -1.316094 1.118234 -1.456680 -0.601890
2018-01-08 -1.028436 -1.036542 -0.459044 1.321962 -0.198338 -1.034822
데이터 분석 과정 에서 흔히 볼 수 있 는 상황 중 하 나 는 데이터 가 excel 또는 cvs 에서 직접 와 서 excel 에서 데 이 터 를 읽 을 수 있 고 데 이 터 는 DataFrame 에서 처리 할 수 있다 는 것 이다.

df = pd.read_excel('data.xlsx',sheet_name= 'Sheet1')
print df
같은 데 이 터 는 DataFrame 에 저 장 된 excel 입 니 다.
cvs 데 이 터 를 처리 하 는 함 수 는 to_excelread_cvs 이 고 HDF 5 를 처리 하 는 함 수 는 to_cvsread_hdf 입 니 다.to_hdf 을 방문 하면 두 배열 과 같은 접근 방식 을 사용 할 수 있 습 니 다.

print df['A']
가로축 라벨 가 져 오기:

2018-01-01 0.712636
2018-01-02 -1.292799
2018-01-03 1.762894
2018-01-04 -0.818066
2018-01-05 2.008658
2018-01-06 0.480893
2018-01-07 -0.672501
2018-01-08 -1.028436
같은 요 소 를 지정 할 수 있 습 니 다:

print df['A']['2018-01-01']
배열 을 자 르 고 가로축 과 세로 축 을 인식 합 니 다.

>>> import pandas as pd
>>> df = pd.read_excel('data.xlsx',sheet_name= 'Sheet1')
>>> df[:][0:3]
     A   B   C   D   E   F
2018-01-01 0.712636 0.546680 -0.847866 -0.629005 2.152686 0.563907
2018-01-02 -1.292799 1.122098 0.743293 0.656412 0.989738 2.468200
2018-01-03 1.762894 0.783614 -0.301468 0.289608 -0.780844 0.873074
>>>
DataFrame 에 관련 된 많은 함수 가 있 습 니 다.다음은 더 많은 소개 가 있 을 것 입 니 다.
이상 이 바로 본 고의 모든 내용 입 니 다.여러분 의 학습 에 도움 이 되 고 저 희 를 많이 응원 해 주 셨 으 면 좋 겠 습 니 다.

좋은 웹페이지 즐겨찾기