머신러닝 스터디 - 데이터 전처리(Preprocessing)

1060 단어 pythonMLML

데이터 전처리(Preprocessing)

  • 데이터 클린징
  • 결손값 처리 (Null/NaN 처리)
  • 데이터 인코딩(레이블, 원-핫 인코딩)
  • 데이터 스케일링
  • 이상치 제거
  • Feature 선택, 추출 및 가공

원-핫(One-Hot) 인코딩

원-핫 인코딩은 피처 값의 유형에 따라 새로운 피처를 추가해 고유 값에 해당하는 컬럼에만 1을 표시하고 나머지 컬럼에는 0을 표시하는 방식

판다스 get_dummies() 을 이용한 원-핫 인코딩

pd.get_dummies(DataFrame)

피처 스케일링

  1. 단위가 다른 데이터 통일
  2. 데이터범위가 다른 데이터 통일
  • 표준화는 데이터의 피처 각각이 평균이 0이고 분산이 1인 가우시안 정규분포를 가진 값으로 변환하는 것

  • StandardScaler : 평균이 0이고, 분산이 1인 정규 분포 형태로 변환

  • 정규화는 서로 다른 피처의 크기를 통일하기 위해 크기를 변환해주는 개념

  • MinMaxScaler : 데이터값을 0과 1사이의 범위 값으로 변환(음수 값이 있으면 -1에서 1값으로 변환합니다)

좋은 웹페이지 즐겨찾기