Python Pandas 데이터 분석 도구 사용법 인 스 턴 스
Pandas 는 Numpy 를 바탕 으로 하 는 전문 적 인 데이터 분석 도구 로 각종 데이터 세트 를 유연 하고 효율적으로 처리 할 수 있 으 며 우리 후기 에 사례 를 분석 하 는 신기 이기 도 합 니 다.이 는 두 가지 유형의 데이터 구 조 를 제공 하 는데 그것 이 바로 DataFrame 과 Series 이다.우 리 는 DataFrame 을 Excel 안의 표 로 간단하게 이해 할 수 있 고 Series 는 표 중의 한 열 이다.
2.DataFrame 만 들 기
# -*- encoding=utf-8 -*-
import pandas
if __name__ == '__main__':
pass
test_stu = pandas.DataFrame(
{' ': [66, 77, 88, 99, 85],
' ': [88, 77, 85, 78, 65],
' ': [99, 84, 87, 56, 75]},
)
print(test_stu)
stu = pandas.DataFrame(
{' ': [66, 77, 88, 99, 85],
' ': [88, 77, 85, 78, 65],
' ': [99, 84, 87, 56, 75]},
index=[' ', ' ', ' ', ' ', ' '] # index
)
print(stu)
운행 하 다.
0 66 88 99
1 77 77 84
2 88 85 87
3 99 78 56
4 85 65 75
66 88 99
77 77 84
88 85 87
99 78 56
85 65 75
3.CSV 또는 Excel(.xlsx)을 읽 고 간단 한 조작(첨삭 검사)data.csv
# -*- encoding=utf-8 -*-
import pandas
if __name__ == '__main__':
pass
data = pandas.read_csv('data.csv', engine='python') # python csv
print(data.head(5)) # 5 ,
print(data.tail(5)) # 5
print(data) #
print(data['height']) # height
print(data[['height', 'weight']]) # height weight
data.to_csv('write.csv') # csv
data.to_excel('write.xlsx') # xlsx
data.info() # ( , , )
print(data.describe()) # (count ,mean 、std 、min 、max 25%50%75% 。)
data[' '] = range(0, len(data)) #
print(data)
new_data = data.drop(' ', axis=1, inplace=False)
# , inplace True , None, ,
print(new_data)
data[' + '] = data['height'] + data['weight']
print(data)
data['remark'] = data['remark'].str.replace('to', '') #
print(data['remark'])
data['birth'] = pandas.to_datetime(data['birth']) #
print(data['birth'])
4.조건 에 따라 선별 하고 절취
# -*- encoding=utf-8 -*-
import pandas
if __name__ == '__main__':
pass
data = pandas.read_csv('data.csv', engine='python') # python csv
a = data.iloc[:12, ] # 0-12 ,
# print(a)
b = data.iloc[:, [1, 3]] # , 1,3
# print(b)
c = data.iloc[0:12, 0:4] # 0-12, 0-4
# print(c)
d = data['sex'] == 1 # 1( )
# print(d)
f = data.loc[data['sex'] == 1, :] # 1( )
# print(f)
g = data.loc[:, ['weight', 'height']] #
# print(g)
h = data.loc[data['height'].isin([166, 175]), :] # 166,175
# print(h)
h1 = data.loc[data['height'].isin([166, 175]), ['weight', 'height']] # 166,175
# print(h1)
i = data['height'].mean() #
j = data['height'].std() #
k = data['height'].median() #
l = data['height'].min() #
m = data['height'].max() #
# print(i)
# print(j)
# print(k)
# print(l)
# print(m)
n = data.loc[
(data['height'] > data['height'].mean()) &
(data['weight'] > data['weight'].mean()),
:] # , , and & |
print(n)
5.청 난 데이터,중복 제거,그룹 구성,통합
# -*- encoding=utf-8 -*-
import pandas
if __name__ == '__main__':
pass
sheet1 = pandas.read_excel('data.xlsx', sheet_name='Sheet1') # sheet1
# print(sheet1)
# print('-------------------------')
sheet2 = pandas.read_excel('data.xlsx', sheet_name='Sheet2') # sheet2
# print(sheet2)
# print('-------------------------')
a = pandas.concat([sheet1, sheet2]) #
# print(a)
# print('-------------------------')
b = a.dropna() # nan, nan
# print(b)
# print('-------------------------')
b1 = a.dropna(subset=['weight']) # nan
# print(b1)
# print('-------------------------')
c = b.drop_duplicates() #
# print(c)
# print('-------------------------')
d = b.drop_duplicates(subset=['weight']) #
# print(d)
# print('-------------------------')
e = b.drop_duplicates(subset=['weight'], keep='last') # ,
# print(e)
# print('-------------------------')
f = a.sort_values(['weight'], ascending=False) # weight
# print(f)
g = c.groupby(['sex']).sum() # sex ,
# print(g)
g1 = c.groupby(['sex'], as_index=False).sum() # sex , , sex
# print(g1)
g2 = c.groupby(['sex', 'weight']).sum() # sex weight ,
# print(g2)
h = pandas.cut(c['weight'], bins=[80, 90, 100, 150, 200], ) #
print(h)
# print('-------------------------')
c[' '] = h # , ,
print(c)
이상 이 바로 본 고의 모든 내용 입 니 다.여러분 의 학습 에 도움 이 되 고 저 희 를 많이 응원 해 주 셨 으 면 좋 겠 습 니 다.
이 내용에 흥미가 있습니까?
현재 기사가 여러분의 문제를 해결하지 못하는 경우 AI 엔진은 머신러닝 분석(스마트 모델이 방금 만들어져 부정확한 경우가 있을 수 있음)을 통해 가장 유사한 기사를 추천합니다:
Python의 None과 NULL의 차이점 상세 정보그래서 대상 = 속성 + 방법 (사실 방법도 하나의 속성, 데이터 속성과 구별되는 호출 가능한 속성 같은 속성과 방법을 가진 대상을 클래스, 즉 Classl로 분류할 수 있다.클래스는 하나의 청사진과 같아서 하나의 ...
텍스트를 자유롭게 공유하거나 복사할 수 있습니다.하지만 이 문서의 URL은 참조 URL로 남겨 두십시오.
CC BY-SA 2.5, CC BY-SA 3.0 및 CC BY-SA 4.0에 따라 라이센스가 부여됩니다.