머신러닝 스터디 - 데이터 전처리(Preprocessing)
데이터 전처리(Preprocessing)
- 데이터 클린징
- 결손값 처리 (Null/NaN 처리)
- 데이터 인코딩(레이블, 원-핫 인코딩)
- 데이터 스케일링
- 이상치 제거
- Feature 선택, 추출 및 가공
원-핫(One-Hot) 인코딩
원-핫 인코딩은 피처 값의 유형에 따라 새로운 피처를 추가해 고유 값에 해당하는 컬럼에만 1을 표시하고 나머지 컬럼에는 0을 표시하는 방식
판다스 get_dummies() 을 이용한 원-핫 인코딩
pd.get_dummies(DataFrame)
피처 스케일링
- 단위가 다른 데이터 통일
- 데이터범위가 다른 데이터 통일
-
표준화는 데이터의 피처 각각이 평균이 0이고 분산이 1인 가우시안 정규분포를 가진 값으로 변환하는 것
-
StandardScaler : 평균이 0이고, 분산이 1인 정규 분포 형태로 변환
-
정규화는 서로 다른 피처의 크기를 통일하기 위해 크기를 변환해주는 개념
-
MinMaxScaler : 데이터값을 0과 1사이의 범위 값으로 변환(음수 값이 있으면 -1에서 1값으로 변환합니다)
Author And Source
이 문제에 관하여(머신러닝 스터디 - 데이터 전처리(Preprocessing)), 우리는 이곳에서 더 많은 자료를 발견하고 링크를 클릭하여 보았다 https://velog.io/@taeho8822/머신러닝-스터디-데이터-전처리Preprocessing저자 귀속: 원작자 정보가 원작자 URL에 포함되어 있으며 저작권은 원작자 소유입니다.
우수한 개발자 콘텐츠 발견에 전념 (Collection and Share based on the CC Protocol.)