머신러닝 스터디 - 데이터 전처리(Preprocessing)

1060 단어 python ML ML

데이터 전처리(Preprocessing)

데이터 클린징
결손값 처리 (Null/NaN 처리)
데이터 인코딩(레이블, 원-핫 인코딩)
데이터 스케일링
이상치 제거
Feature 선택, 추출 및 가공

원-핫(One-Hot) 인코딩

원-핫 인코딩은 피처 값의 유형에 따라 새로운 피처를 추가해 고유 값에 해당하는 컬럼에만 1을 표시하고 나머지 컬럼에는 0을 표시하는 방식

판다스 get_dummies() 을 이용한 원-핫 인코딩
pd.get_dummies(DataFrame)

피처 스케일링

단위가 다른 데이터 통일
데이터범위가 다른 데이터 통일

표준화는 데이터의 피처 각각이 평균이 0이고 분산이 1인 가우시안 정규분포를 가진 값으로 변환하는 것
StandardScaler : 평균이 0이고, 분산이 1인 정규 분포 형태로 변환
정규화는 서로 다른 피처의 크기를 통일하기 위해 크기를 변환해주는 개념
MinMaxScaler : 데이터값을 0과 1사이의 범위 값으로 변환(음수 값이 있으면 -1에서 1값으로 변환합니다)

Author And Source

이 문제에 관하여(머신러닝 스터디 - 데이터 전처리(Preprocessing)), 우리는 이곳에서 더 많은 자료를 발견하고 링크를 클릭하여 보았다 https://velog.io/@taeho8822/머신러닝-스터디-데이터-전처리Preprocessing

저자 귀속: 원작자 정보가 원작자 URL에 포함되어 있으며 저작권은 원작자 소유입니다.

우수한 개발자 콘텐츠 발견에 전념 (Collection and Share based on the CC Protocol.)

React 복습 #1

2021.07.30 NAVER-10

좋은 웹페이지 즐겨찾기

개발자 우수 사이트 수집

개발자가 알아야 할 필수 사이트 100선 추천 우리는 당신을 위해 100개의 자주 사용하는 개발자 학습 사이트를 정리했습니다