Pandas 사용하기
프로그래머스 2021 국민대 여름방학 인공지능 과정 1주차 Day3 TIL
🔍Pandas란?
데이터 조작 및 분석에 활용되는 파이썬 라이브러리
📌Pandas 사용하기
import pandas as pd
☝1차원 데이터 - Series
- 1차원 labeled array, 인덱스 지정 가능
- numpy의 활용, ndarray와 유사한 성질(인덱싱)
- dict와 유사한 성질(라벨링)
name
속성이 있음
s = pd.Series([10, 20, 30, 40, 50, 60], name='hipandas')
s
0 10
1 20
2 30
3 40
4 50
Name: hipandas, dtype: int64
t = pd.Series({'one':1, 'two':2, 'three':3, 'four':4})
t
one 1
two 2
three 3
four 4
dtype: int64
✌2차원 데이터 - DataFrame
- 2차원 Table구조, 인덱스 지정 가능
- 하나의 DataFrame에 다양한 데이터 type 입력 가능
d = {"height":[150, 160, 170, 180], "weight":[45, 55, 65, 75]}
d
height weight
0 150 45
1 160 55
2 170 65
3 180 75
CSV로부터 데이터 가져오기
import pandas as pd
name
속성이 있음s = pd.Series([10, 20, 30, 40, 50, 60], name='hipandas')
s
0 10
1 20
2 30
3 40
4 50
Name: hipandas, dtype: int64
t = pd.Series({'one':1, 'two':2, 'three':3, 'four':4})
t
one 1
two 2
three 3
four 4
dtype: int64
d = {"height":[150, 160, 170, 180], "weight":[45, 55, 65, 75]}
d
height weight
0 150 45
1 160 55
2 170 65
3 180 75
.read_csv('path')
데이터 접근하기
- 열을 기준으로 -
df['column']
ordf.column'
- 행을 기준으로
- 인덱스 이용 -
.loc['row', 'col']
- 숫자 인덱스 이용 -
.iloc['rowidx', 'colidx']
- 인덱스 이용 -
조건을 활용해서 데이터 접근하기
df[조건]
d[d['height'] > 160]
2 170 65 3 180 75
groupby
.groupby()
- 특정한 기준을 바탕으로 DataFrame 분할
ex) new_df = df[].groupby(by=기준)
- 통계함수를 적용해 각 데이터를 압축
ex) new_df.sum()
- 적용된 결과를 바탕으로 새로운 Series 생성 (group_key : applied_value)
얜 그냥 예시를 더 찾아보는 걸로 해야겠다.
데이터 다루는게 좀 헷갈리고 어렵다.
sql을 좀 제대로 해놓을 껄..^^..
요구사항대로 해보려고 야금야금 조건을 적어봐도 이거보다 좋은 방법이 있을거같은데... 라는 생각이 들고,,
대가리 깨질 내 미래가 스멀스멀 보인다.
차근차근 익숙해져야겠다😎
Author And Source
이 문제에 관하여(Pandas 사용하기), 우리는 이곳에서 더 많은 자료를 발견하고 링크를 클릭하여 보았다 https://velog.io/@kueyeon0429/Pandas-사용하기저자 귀속: 원작자 정보가 원작자 URL에 포함되어 있으며 저작권은 원작자 소유입니다.
우수한 개발자 콘텐츠 발견에 전념 (Collection and Share based on the CC Protocol.)