Pandas 사용하기

2365 단어 TILTIL

프로그래머스 2021 국민대 여름방학 인공지능 과정 1주차 Day3 TIL


🔍Pandas란?

데이터 조작 및 분석에 활용되는 파이썬 라이브러리


📌Pandas 사용하기

import pandas as pd

☝1차원 데이터 - Series

  • 1차원 labeled array, 인덱스 지정 가능
  • numpy의 활용, ndarray와 유사한 성질(인덱싱)
  • dict와 유사한 성질(라벨링)
  • name속성이 있음
s = pd.Series([10, 20, 30, 40, 50, 60], name='hipandas')
s
0    10
1    20
2    30
3    40
4    50
Name: hipandas, dtype: int64
t = pd.Series({'one':1, 'two':2, 'three':3, 'four':4})
t
one      1
two      2
three    3
four     4
dtype: int64

✌2차원 데이터 - DataFrame

  • 2차원 Table구조, 인덱스 지정 가능
  • 하나의 DataFrame에 다양한 데이터 type 입력 가능
d = {"height":[150, 160, 170, 180], "weight":[45, 55, 65, 75]}
d
	height	weight
0	150	45
1	160	55
2	170	65
3	180	75

CSV로부터 데이터 가져오기

.read_csv('path')

데이터 접근하기

  • 열을 기준으로 - df['column'] or df.column'
  • 행을 기준으로
    • 인덱스 이용 - .loc['row', 'col']
    • 숫자 인덱스 이용 - .iloc['rowidx', 'colidx']

조건을 활용해서 데이터 접근하기

df[조건]

d[d['height'] > 160]
2	170	65
3	180	75

groupby

.groupby()

  1. 특정한 기준을 바탕으로 DataFrame 분할 ex) new_df = df[].groupby(by=기준)
  2. 통계함수를 적용해 각 데이터를 압축 ex) new_df.sum()
  3. 적용된 결과를 바탕으로 새로운 Series 생성 (group_key : applied_value)

얜 그냥 예시를 더 찾아보는 걸로 해야겠다.


데이터 다루는게 좀 헷갈리고 어렵다.
sql을 좀 제대로 해놓을 껄..^^..
요구사항대로 해보려고 야금야금 조건을 적어봐도 이거보다 좋은 방법이 있을거같은데... 라는 생각이 들고,,
대가리 깨질 내 미래가 스멀스멀 보인다.
차근차근 익숙해져야겠다😎

좋은 웹페이지 즐겨찾기