python pandas 라 이브 러 리 설치 및 생 성
pandas
은 데이터 분석 인원 에 게 모두 익숙 해 야 할 제3자 창고 로 pandas
은 과학 계산 에 있어 큰 장점 을 가진다.특히 데이터 분석 인원 에 게 상당히 중요 하 다.python 에는 Numpy
이 있 지만 Numpy
은 비교적 수학 화 되 었 고 라 이브 러 리 가 더욱 구체 적 인 대표 데이터 모델 이 필요 하 다.우 리 는 데이터 처리 에서 EXCEL
이 매우 중요 한 역할 을 하 는 것 을 잘 알 고 있다.표 의 모델 은 데이터 모델 의 가장 좋 은 표현 형식 이다.pandas
은 표 데이터 모델 이 python 에서 의 시 뮬 레이 션 으로 SQL
과 같은 간단 한 데이터 처 리 를 통 해 python 에서 편리 하 게 실현 할 수 있 습 니 다.pandas 설치
pandas
python 에 설 치 된 설치 와 같은 사용 pip
진행:
pip install pandas
pandas 생 성 대상pandas
은 두 가지 데이터 구조 가 있 는데 Series
과 DataFrame
이다.Series
Series
은 python 의 데이터 list
과 같이 모든 데이터 에 자신의 색인 이 있 습 니 다.list
에서 Series
을 만 듭 니 다.
>>> import pandas as pd
>>> s1 = pd.Series([100,23,'bugingcode'])
>>> s1
0 100
1 23
2 bugingcode
dtype: object
>>>
Series
에 해당 하 는 색인 을 추가 합 니 다.
>>> import numpy as np
>>> ts = pd.Series(np.random.randn(365), index=np.arange(1,366))
>>> ts
index 에 색인 값 을 설정 하 는 것 은 1 에서 366 까지 의 값 입 니 다.Series
의 데이터 구조 가 가장 비슷 한 것 은 python 의 사전 입 니 다.사전 에서 Series
을 만 듭 니 다.
sd = {'xiaoming':14,'tom':15,'john':13}
s4 = pd.Series(sd)
이때 Series
이 자체 색인 index 임 을 볼 수 있다.pandas
자체 가 python 의 다른 제3자 창고 Matplotlib
과 많은 연결 이 있 습 니 다.Matplotlib
하 나 는 데 이 터 를 보 여 주 는 데 가장 많이 사용 되 는 것 입 니 다.Matplotlib
에 대해 잘 모 르 면 뒤의 장 을 소개 합 니 다.지금 가 져 와 서 직접 사용 하 겠 습 니 다.아직 설치 되 지 않 았 다 면 똑 같은 pip
명령 으로 pip install Matplotlib
을 설치 합 니 다.다음 데이터 보 여주 기:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
ts = pd.Series(np.random.randn(365), index=np.arange(1,366))
ts.plot()
plt.show()
불규칙 한 도형 으로 데이터 분석 에서 시간 은 중요 한 특성 이다.많은 데 이 터 는 시간 과 관계 가 있 고 매출 은 시간 과 관계 가 있 으 며 날 씨 는 시간 과 관계 가 있 기 때문이다.
pandas
에서 도 시간 에 관 한 함 수 를 제 공 했 고 date_range
을 사용 하여 일련의 시간 을 생 성 했다.
>>> pd.date_range('01/01/2017',periods=365)
DatetimeIndex(['2017-01-01', '2017-01-02', '2017-01-03', '2017-01-04',
'2017-01-05', '2017-01-06', '2017-01-07', '2017-01-08',
'2017-01-09', '2017-01-10',
...
'2017-12-22', '2017-12-23', '2017-12-24', '2017-12-25',
'2017-12-26', '2017-12-27', '2017-12-28', '2017-12-29',
'2017-12-30', '2017-12-31'],
dtype='datetime64[ns]', length=365, freq='D')
>>>
이전에 우리 의 도형 이 불규칙 한 이 유 는 데이터 가 연속 되 지 않 았 기 때문이다.cumsum
을 사용 하여 데 이 터 를 연속 시 켰 다.다음 과 같다.
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
ts = pd.Series(np.random.randn(365), index=pd.date_range('01/01/2017',periods=365))
ts = ts.cumsum()
ts.plot()
plt.show()
DataFrame
DataFrame
은 Series
1 차원 의 확장 에 해당 하 는 2 차원 데이터 모델 로 EXcel 표 의 데이터 에 해당 하 며 가로 두 개의 좌표 가 있 습 니 다.가로 축 은 Series
과 같이 index 를 사용 하고 세로 축 은 columns 로 확인 합 니 다.DataFrame
대상 을 구축 할 때 세 가지 요 소 를 확인 해 야 합 니 다.데이터,가로 축,세로 축.
df = pd.DataFrame(np.random.randn(8,6), index=pd.date_range('01/01/2018',periods=8),columns=list('ABCDEF'))
print df
데 이 터 는 다음 과 같 습 니 다.
A B C D E F
2018-01-01 0.712636 0.546680 -0.847866 -0.629005 2.152686 0.563907
2018-01-02 -1.292799 1.122098 0.743293 0.656412 0.989738 2.468200
2018-01-03 1.762894 0.783614 -0.301468 0.289608 -0.780844 0.873074
2018-01-04 -0.818066 1.629542 -0.595451 0.910141 0.160980 0.306660
2018-01-05 2.008658 0.456592 -0.839597 1.615013 0.718422 -0.564584
2018-01-06 0.480893 0.724015 -1.076434 -0.253731 0.337147 -0.028212
2018-01-07 -0.672501 0.739550 -1.316094 1.118234 -1.456680 -0.601890
2018-01-08 -1.028436 -1.036542 -0.459044 1.321962 -0.198338 -1.034822
데이터 분석 과정 에서 흔히 볼 수 있 는 상황 중 하 나 는 데이터 가 excel
또는 cvs
에서 직접 와 서 excel
에서 데 이 터 를 읽 을 수 있 고 데 이 터 는 DataFrame
에서 처리 할 수 있다 는 것 이다.
df = pd.read_excel('data.xlsx',sheet_name= 'Sheet1')
print df
같은 데 이 터 는 DataFrame
에 저 장 된 excel
입 니 다.cvs 데 이 터 를 처리 하 는 함 수 는
to_excel
과 read_cvs
이 고 HDF 5 를 처리 하 는 함 수 는 to_cvs
과 read_hdf
입 니 다.to_hdf
을 방문 하면 두 배열 과 같은 접근 방식 을 사용 할 수 있 습 니 다.
print df['A']
가로축 라벨 가 져 오기:
2018-01-01 0.712636
2018-01-02 -1.292799
2018-01-03 1.762894
2018-01-04 -0.818066
2018-01-05 2.008658
2018-01-06 0.480893
2018-01-07 -0.672501
2018-01-08 -1.028436
같은 요 소 를 지정 할 수 있 습 니 다:
print df['A']['2018-01-01']
배열 을 자 르 고 가로축 과 세로 축 을 인식 합 니 다.
>>> import pandas as pd
>>> df = pd.read_excel('data.xlsx',sheet_name= 'Sheet1')
>>> df[:][0:3]
A B C D E F
2018-01-01 0.712636 0.546680 -0.847866 -0.629005 2.152686 0.563907
2018-01-02 -1.292799 1.122098 0.743293 0.656412 0.989738 2.468200
2018-01-03 1.762894 0.783614 -0.301468 0.289608 -0.780844 0.873074
>>>
DataFrame 에 관련 된 많은 함수 가 있 습 니 다.다음은 더 많은 소개 가 있 을 것 입 니 다.이상 이 바로 본 고의 모든 내용 입 니 다.여러분 의 학습 에 도움 이 되 고 저 희 를 많이 응원 해 주 셨 으 면 좋 겠 습 니 다.
이 내용에 흥미가 있습니까?
현재 기사가 여러분의 문제를 해결하지 못하는 경우 AI 엔진은 머신러닝 분석(스마트 모델이 방금 만들어져 부정확한 경우가 있을 수 있음)을 통해 가장 유사한 기사를 추천합니다:
【Pandas】DatetimeIndex란? no.29안녕하세요, 마유미입니다. Pandas에 대한 기사를 시리즈로 작성하고 있습니다. 이번은 제29회의 기사가 됩니다. 에서 Pandas의 시간에 대한 모듈에 대해 씁니다. 이번 기사에서는, 「DatetimeIndex」...
텍스트를 자유롭게 공유하거나 복사할 수 있습니다.하지만 이 문서의 URL은 참조 URL로 남겨 두십시오.
CC BY-SA 2.5, CC BY-SA 3.0 및 CC BY-SA 4.0에 따라 라이센스가 부여됩니다.