Data science 1주차

1. EDA란

###(Exploratoroy Data Analysis)

데이터의 특이성을 확인하기 위해서,

시각화 도구를 이용한 데이터 분석

  • non graphic
    그래픽적인 요소를 사용하지 않는 방법

  • graphic
    Histogram
    Pie chart
    QQ plot
    .
    .

    2. Colab에서 데이터셋 불러오기

    Pandas 활용

CSV 파일 불러오기

data_url = "https://~"
df = pd. read_csv(data_url)
df.head()

Excel 파일 불러오기

data_url = "https://~"
df = pd. read_excel(data_url)
df.head()

3. 데이터 전처리 연습

-- 한글 파일 깨짐 현상 --

#한글 파일 다운로드
!sudo apt-get install -y fonts-nanum
!sudo fc-cache -fv
!rm ~/.cache/matplotlib -rf

import matplotlib.pyplot as plt
import matplotlib as mpl
mpl.rc('font', family='NanumBarunGothic')

-- qqplot 연습 --

import statsmodels.api as sm
from scipy import stats
fig, ax = plt.subplots(figsize=(10,5))
sm.qqplot(pp_dropna.[칼럼명], line='q', dist = stats.uniform, ax=ax)
plt.show()

4. String Manipulation

replace가 아닌 다른 방법을 사용하여 obj->int로

def column_cleaning(col): 
    temp_list = []
    for i in col:
     temp = int(i.replace(",", ""))
     temp_list.append(temp)
    return temp_list
    
df["컬럼1"] = column_cleaning(df["컬럼1"])
df["컬럼2"] = column_cleaning(df["컬럼2"])

object 열을 제외한 모든 feature에 대해 int, float로 수정

df.dtypes
df = df.fillna(0)
import re
def cleanString(x):
    x1 = ''
    if type(x1) == type(x):
      x1 = x.replace(" ","")
      return int(x1)
    else:
      return x
df.apply(cleanString)
df.dtypes

등급 매기기

1년치 매출액의 평균값을 기준으로

ex) 10% 이상 -> S / 5% 이상 -> A / -5~5% -> B / -5% 이하 -> C / -10% 이하 -> D

#if, elif 적용

import numpy as np
def solve(df):
  mean = df['매출액'].mean()
  for i in df['분기'].values:
    value = ((df.loc[df['분기']== i, '매출액'].values - mean) / mean ) * 100
    if value >= 10:
      value = "S"
    elif 5<=value<10:
      value = "A"
    elif -5< value < 5:
      value = "B"
    elif -10 < value <= -5:
      value = "C"
    elif value <= -10:
      value = "D"
    df.loc[df['분기'] == i, 'Relative Perfomance'] = value
  return df

5. 1주차 회고

아직은 컴퓨터 언어에 익숙하지 않은 것 같다.
특히 어떤 상황에서 적용되는 함수가 있어도 응용을 못하는 것이 한계이다.
Seaborn이나 matplotlib를 이용한 시각화 그래프를 적용하는 방식도 좀 더 연습해봐야겠다.

좋은 웹페이지 즐겨찾기