Data science 1주차
1. EDA란
###(Exploratoroy Data Analysis)
데이터의 특이성을 확인하기 위해서,
시각화 도구를 이용한 데이터 분석
-
non graphic
그래픽적인 요소를 사용하지 않는 방법 -
graphic
Histogram
Pie chart
QQ plot
.
.2. Colab에서 데이터셋 불러오기
Pandas 활용
CSV 파일 불러오기
data_url = "https://~"
df = pd. read_csv(data_url)
df.head()
Excel 파일 불러오기
data_url = "https://~"
df = pd. read_excel(data_url)
df.head()
3. 데이터 전처리 연습
-- 한글 파일 깨짐 현상 --
#한글 파일 다운로드
!sudo apt-get install -y fonts-nanum
!sudo fc-cache -fv
!rm ~/.cache/matplotlib -rf
import matplotlib.pyplot as plt
import matplotlib as mpl
mpl.rc('font', family='NanumBarunGothic')
-- qqplot 연습 --
import statsmodels.api as sm
from scipy import stats
fig, ax = plt.subplots(figsize=(10,5))
sm.qqplot(pp_dropna.[칼럼명], line='q', dist = stats.uniform, ax=ax)
plt.show()
4. String Manipulation
replace가 아닌 다른 방법을 사용하여 obj->int로
def column_cleaning(col):
temp_list = []
for i in col:
temp = int(i.replace(",", ""))
temp_list.append(temp)
return temp_list
df["컬럼1"] = column_cleaning(df["컬럼1"])
df["컬럼2"] = column_cleaning(df["컬럼2"])
object 열을 제외한 모든 feature에 대해 int, float로 수정
df.dtypes
df = df.fillna(0)
import re
def cleanString(x):
x1 = ''
if type(x1) == type(x):
x1 = x.replace(" ","")
return int(x1)
else:
return x
df.apply(cleanString)
df.dtypes
등급 매기기
1년치 매출액의 평균값을 기준으로
ex) 10% 이상 -> S / 5% 이상 -> A / -5~5% -> B / -5% 이하 -> C / -10% 이하 -> D
#if, elif 적용
import numpy as np
def solve(df):
mean = df['매출액'].mean()
for i in df['분기'].values:
value = ((df.loc[df['분기']== i, '매출액'].values - mean) / mean ) * 100
if value >= 10:
value = "S"
elif 5<=value<10:
value = "A"
elif -5< value < 5:
value = "B"
elif -10 < value <= -5:
value = "C"
elif value <= -10:
value = "D"
df.loc[df['분기'] == i, 'Relative Perfomance'] = value
return df
5. 1주차 회고
아직은 컴퓨터 언어에 익숙하지 않은 것 같다.
특히 어떤 상황에서 적용되는 함수가 있어도 응용을 못하는 것이 한계이다.
Seaborn이나 matplotlib를 이용한 시각화 그래프를 적용하는 방식도 좀 더 연습해봐야겠다.
Author And Source
이 문제에 관하여(Data science 1주차), 우리는 이곳에서 더 많은 자료를 발견하고 링크를 클릭하여 보았다 https://velog.io/@adypcl96/데이터-전처리-1주차저자 귀속: 원작자 정보가 원작자 URL에 포함되어 있으며 저작권은 원작자 소유입니다.
우수한 개발자 콘텐츠 발견에 전념 (Collection and Share based on the CC Protocol.)