[판다스] 왕초보 판다스 - 개념과 시리즈, 데이터프레임 만들기

판다스?

  • 판다스(Pandas)는 파이썬에서 2차원 배열 데이터를 간편하게 다룰 수 있도록 만들어진 라이브러리다.
  • 정형 데이터를 다루는 라이브러리다.
  • 엑셀과 비슷한 느낌이라고 생각하면 되겠다.
  • 이름의 유래는 판다와 관계가 없다. Python Data Analysis Library 를 뜻하고, 다차원 정형 데이터를 나타내는 경제학 용어인 panel data에서 그 이름을 따왔다고 한다.

정형(structured) vs. 반정형(semi structured data) vs. 비정형(unstructured) 데이터
판다스는 정형 데이터를 다룬다고 했다. 그런데 정형데이터가 뭘까?

  • 정형데이터는 정확한 규칙을 따르는 데이터를 의미한다. 표 같은 형식을 생각하면 제일 좋다. 나이 컬럼에는 나이를 나타내는 수가 들어가고, 연도를 나타내는 컬럼에는 연도를 나타내는 수가 들어가는 표를 생각하면 되겠다.
  • 반정형 데이터는 약한 정형 데이터라고 생각해도 된다. 규칙은 있지만 반드시 지킬 필요는 없는 경우다.
  • 비정형 데이터는 정형 데이터의 반대 개념으로 정해진 규칙이 없어서 값의 의미를 파악하기 힘든 데이터는 말한다. 영상, 자연어, 음성, 주파수 같은 데이터가 비정형이다.

판다스 불러오기

import pandas as pd

pd 라는 이름으로 판다스 라이브러리를 임포팅해오자. (다른 이름으로 해도 오류는 없으나 관습적으로 이렇게 쓴다)

판다스의 데이터 타입

판다스에는 두 가지 데이터 종류가 있다. 하나는 시리즈(Series)고, 다른 하나는 데이터프레임(DataFrame) 이다.

Series

시리즈는 한 종류의 데이터를 모아 놓은 것이다. 표에서 한 행 혹은 한 열이라고 생각하면 좋다.

시리즈 만들기

pd.Series(data=None, index=None, dtype=None, name=None, copy=None)

data 에 들어갈 수 있는 것은

  • iterable
  • dict
  • array-like(ndarray)
  • 또는 scalar 값이다.

DataFrame

시리즈가 여러 개 모이면 데이터프레임이 된다. 행과 열이 시리즈고 이들이 모인 표가 데이터프레임이라고 생각하면 쉽다.

데이터프레임 만들기

pandas.DataFrame(data=None, index=None, columns=None, dtype=None, copy=None)

data 에 들어갈 수 있는 것은

  • iterable
  • dict
  • array-like(ndarray)
  • 또는 DataFrame 이다.
  1. 2차원 배열(리스트)로 만들기

  2. 딕셔너리로 만들기 - 컬럼별로 (딕셔너리 안에 컬럼명 : 값으로, 값에는 Series, arrays, constants, dataclass 또는 list-like object가 들어갈 수 있음)
  3. 딕셔너리로 만들기 - 로우별로 (리스트 안에 한 로우당 한 딕셔너리로 나열)

좋은 웹페이지 즐겨찾기