[3주차 Day2] Pandas 데이터 다루기

행과 열을 이용해 데이터를 관리하는데 굉장히 유용한 모듈인 Pandas에대해 학습했다. 그 중에 전부는 아니고 내가 그동안 헷갈렸거나 몰랐던 부분들만 정리해보겠다.

Pandas로 1차원 데이터 다루기 - Series

리스트를 이용한 Series 생성

s = pd.Series([1,4,9,16,25])
s

딕셔너리를 이용한 Series 생성

t = pd.Series({'one':1, 'two':2, 'three':3,, 'four':4, 'five':5
t

numpy 이용

s = pd.Series([1,4,9,16,25])
np.array(s)

4. Series에 이름 붙이기

## N(0,1) 가우시안 표준정규분포에서 랜덤하게 5개를 뽑은 시리즈를 random_nums라고 이름붙임
s = pd.Series(np.random.randn(5), name ='random_nums')
s

Pandas로 2차원 데이터 다루기

DataFrame 생성

d = {'height': [1,2,3,4], 'weight':[10,40,50,60]}
df = pd.DataFrame(d)
df

CSV파일 읽어오기

아래는 country_wiseP_latest.csv 파일이 현재 작업하는 파일위치 기준으로 covid19라는 폴더에 있는 경우이다.

특정열의 데이터를 중복없이 확인하기

## WHO Region 열의 데이터 중복없이 확인
covid['WHO Region'].unique()

groupby 메소드
1) Split : 특정한 기준을 바탕으로 DataFrame을 분할
2) Apply : 통계함수 - sum(), mean(), median() 등을 적용해서 각 데이터를 압축
3) Combine : apply된 결과를 바탕으로 새로운 Series를 생성 (group_key : applied_value)

## WHO Region 별 확진자수
# 1. covid에서 확진자수 column만 추출한다.
# 2. 이를 covid의 WHO Region을 기준으로 groupby한다.
covid_by_region = covid['Confirmed'].groupby(by= covid['WHO Region'])

covid_by_region.sum()

Mission

Author And Source

이 문제에 관하여([3주차 Day2] Pandas 데이터 다루기), 우리는 이곳에서 더 많은 자료를 발견하고 링크를 클릭하여 보았다 https://velog.io/@dltjrdud37/3주차-Day2-Pandas-데이터-다루기

우수한 개발자 콘텐츠 발견에 전념 (Collection and Share based on the CC Protocol.)

좋은 웹페이지 즐겨찾기

개발자 우수 사이트 수집

개발자가 알아야 할 필수 사이트 100선 추천 우리는 당신을 위해 100개의 자주 사용하는 개발자 학습 사이트를 정리했습니다