판다스와 데이터프레임

판다스(Pandas)는 파이썬 데이터 처리를 위한 라이브러리입니다. 파이썬을 이용한 데이터 분석과 같은 작업에서 필수 라이브러리로 알려져있습니다. 참고 할 수 있는 Pandas 링크는 다음과 같습니다.

참고 : https://wikidocs.net/46746

#python에서 pandas를 불러오는 방법은 아래와 같습니다. 
약자는 마음대로 지정할 수 있지만 관례적으로 pd를 사용합니다.
import pandas as pd

Pandas는 데이터프레임이라는 구조를 지원합니다.
데이터프레임은 행과 열이 존재하는 2차원 테이블을 말합니다.

# 데이터프레임을 만드는 방법은 여러가지가 있으며 그 중 하나는 다음과 같습니다.
데이터프레임이름 = pd.DataFrame({'칼럼명1' : [원소1, 원소2... 원소n],
      '칼럼명2' : [원소1, 원소2... 원소n],
       ...
      '칼럼명N' : [원소1, 원소2... 원소n]}}
      
df란 이름의 데이터프레임을 생성해봅시다.
items = {'code' : [101, 102, 103, 104, 105, 106, 107, 108],
         '과목': ['수학', '영어', '국어', '체육', '미술', '사회', '도덕', '과학'],
         '수강생':[15, 15, 10, 50, 20, 50, 70, 10],
         '선생님': ['김민수','김현정','강수정', '이나리', '도민성', '강수진', '김진성', '오상배']}
df = pd.DataFrame(items)
df

# head()를 하면 상위 5개의 행만 출력
df.head()

# tail()를 하면 하위 5개의 행만 출력
df.tail()

# sample(숫자)를 하면 랜덤으로 2개의 행만 출력
df.sample(2)

# 특정 열에 접근하기
df.col_name OR df.['col_name']

# 다수의 열에 접근하기
df[['col_name1','col_name2']] OR df[열의 이름이 나열된 파이썬 리스트]

# 중복 샘플 제거
df.drop_duplicates(subset=['ColName'], inplace=True)

# 해당 df의 각 열에서 Null 데이터가 총 몇 개인지 출력
print(df.isnull().sum())

# 인덱스의 범위 확인
df.index

# 데이터프레임의 전반적인 정보 출력
df.info()

# 각 컬럼의 타입 출력
df.dtypes

# 데이터프레임의 행과 열의 개수 출력
df.shape

# 숫자와 같은 수치 데이터를 다루고 있다면, 
해당 데이터의 최솟값, 최댓값, 평균값(mean), 표준편차(std), 분위수 등을 출력
df.describe()

# df에서 우리가 원하는 조건을 걸어서 충족하는 값만 뽑기. 
위는 True/False, 밑은 True에 해당하는 값을 보여줌. 여전히 df이므로 특정열만을 보기원할경우 
.열 혹은 [열]을 뒤에 추가해주어야한다.
df.col_name == '특정값'
df[df.col_name == '특정값']

# Numpy 타입으로 출력, Numpy에 대해서 간단히 요약하자면, 
각각의 행을 데이터프레임의 행 형태에서 아래와 같은 형태로 변환된다고 보면 되겠습니다.
['Afghanistan', 0, 0, 0, 0.0, 'AS']
df.values

# 데이터프레임 2개를 연결
total_df = pd.concat([df, df2])

# 데이터프레임을 csv 파일로 저장
total_df.to_csv('data.csv', index=False)

# csv 파일을 읽어서 데이터프레임에 저장
new_df = pd.read_table('data.csv', sep=',')
<추가>
리스트의 이름.append(추가할 원소)
리스트의 이름.extend(또 다른 리스트)
정수형 데이터(int64)
실수형 데이터(float 64)

# A조건 & B조건 : A조건과 B조건 모두 만족하는 경우
# A조건 | B조건 : A조건 또는 B조건 둘 중 하나를 만족하는 경우
# ~A조건 : A조건을 만족하는 경우의 반대. 즉, A조건을 만족하지 않는 경우
df[~(df =='특정값')]

좋은 웹페이지 즐겨찾기