[TIL] EDA
💗오늘 배운 것들
엑셀 파일 sheet 별로 읽기
- 엑셀파일 로드
xls = pd.ExcelFile('file_name_or_fath')
- sheet name 확인하기
❗ 이름으로 불러와야 하는데 띄어쓰기 있을 수 있음
xls.sheet_names
요걸로 확인
- sheet 별로 dataframe에 저장
df1 = pd.read_excel(xls, 'sheet_name1')
df2 = pd.read_excel(xls, 'sheet_name2')
코랩 한글 폰트 깨짐 현상
- 나눔고딕 설치
!sudo apt-get install -y fonts-nanum
!sudo fc-cache -fv
!rm ~/.cache/matplotlib -rf
- 런타임 재시작
- matplotlib 의 폰트 Nanum 폰트로 지정
import matplotlib.pyplot as plt
plt.rc('font', family='NanumBarunGothic')
경고메세지 삭제
xls = pd.ExcelFile('file_name_or_fath')
❗ 이름으로 불러와야 하는데 띄어쓰기 있을 수 있음
xls.sheet_names
요걸로 확인df1 = pd.read_excel(xls, 'sheet_name1')
df2 = pd.read_excel(xls, 'sheet_name2')
!sudo apt-get install -y fonts-nanum
!sudo fc-cache -fv
!rm ~/.cache/matplotlib -rf
import matplotlib.pyplot as plt
plt.rc('font', family='NanumBarunGothic')
import warnings
warnings.filterwarnings("ignore")
시각화
Q-Q plot 만들기
✔import statsmodels.api as sm
예를 들어 Series 라면? array로 변환하는 것이 중요
data= np.array(df['column'])
이렇게 array로 바꿔주고
fig = sm.qqplot(data)
plt.show()
cross-tabulation
크로스 집계합 테이블 만듬
✔import seaborn as sns
table = pd.crosstab(df['column1'], df['column2'])
카테고리 박스플롯
✔import seaborn as sns
sns.catplot(data=df, x='종류', y='표시할려는 값', kind = 'box')
여기서 종류는 .unique()로 확인할 수 있음
Author And Source
이 문제에 관하여([TIL] EDA), 우리는 이곳에서 더 많은 자료를 발견하고 링크를 클릭하여 보았다 https://velog.io/@kiki_/TIL저자 귀속: 원작자 정보가 원작자 URL에 포함되어 있으며 저작권은 원작자 소유입니다.
우수한 개발자 콘텐츠 발견에 전념 (Collection and Share based on the CC Protocol.)