[TIL] day12

2720 단어 TILTIL

TIL

  • Pandas 활용

Series

  • 딕셔너리처럼 인덱스를 지정해줄 수 있음

.get()
: 어떤 값을 가져오되, series안에 key가 없어서 value가 없을 경우 아무것도 반환하지 않음. 에러가 발생하지 않음!!
(즉, 없을 경우 예외처리를 함께해줌)

DataFrame

DataFrame의 각 Column은 "Series".
==> 즉, 각 컬럼별로 Series의 이점들을 활용할 수 있다

#'조건'을 이용해서 데이터 접근

covid[covid['New cases'] > 100]

covid['New cases']>100으로 결과를 확인했을 때는, True/Fasle가 같이 반환되는 결과값.
조건을 넣어서 반환한 값은 True인 값만 나열
헷갈리지 않도록 주의!

.unique()
: 범주형 자료에서 범주를 유니크하게 보여준다 == 범주의 종류를 확인할 수 있다

시리즈에 unique함수를 적용하면, 해당되는 컬럼의 데이터들을 중복없이 보여준다.
(이 메소드는 처음 알았는데, 이 편리한걸 왜 이제알았지..!)

.loc[row, col] : 인덱스를 이용해서 가져오기
.iloc[rowidx, colidx] : 숫자 인덱스를 이용해서 가져오기

# .groupby()

table이 있을 때 3가지 과정을 거쳐서더 좋은 결과를 얻는 것을 목표로함

  • Split
  • Apply
  • Combine

.groupby()

#split
coivd_by_region = covid['Confirmed'].groupby(by=covid['WHO Region'])

#apply & combine
covid_by_region.sum()

결과를 보고 특정 국가에서 높은 값이 나온것을 보고 표본수의 문제일 경우도 있다고 보고 covid_by_region.mean()을 통해 검증

👉 이러한 과정을 통해서 새로운 insight를 뽑아낼 수 있음


결과값을 분석하는 것도 중요하니까 다양한 경우의 수를 생각해볼필요도 있을것같다. (역시 통계공부를 확실히해둘필요가..🙄)

본격적으로 데이터 다루기 들어가는것같아서 조금 신난다(~ ̄▽ ̄)~
예전에 pandas 배울때는 모든게 새로운거라 허겁지겁 배우느라 무작정 외우고 시험보는 느낌이여서 세세한것들이 조금 흐릿한것같기도 하다.

지금와서 생각해보면 .get()이나 .unique()도 배웠을텐데 교수님 죄송합니다.

좋은 웹페이지 즐겨찾기