아이펠 6일차 220103
lms
금일은 데이터 전처리에 대해 공부하였다.
- 결측치
값이 없는것 (NULL) 비어있는 - 중복데이터 삭제
데이터에서 중복되는 데이터가 발생할 경우 제거하는 것. - 이상치(아웃라이어)
여타할 값의 범주에서 너무나도 크거나 작은 값을 의미
- 정규화(Normalization)
보통 norm이라고도 많이 하는 데이터 전처리 프로세스로 어떠한 데이터가 가진 특성의 스케일이 많이 벌어지는 경우 문제가 되기에 이걸 다듬는 과정을 정규화라고 한다.
위와 같이 간격극이 심한 데이터들을 정제하는 것.- min-max: 최소-최대로 정규화하는 방법으로 최소와 최대값 사이의 값으로 변환.
최소값은 0 , 최대값은 1로 변환하는 방법이다.
식:
- min-max: 최소-최대로 정규화하는 방법으로 최소와 최대값 사이의 값으로 변환.
def min_max_normalize(lst):
normalized = []
for value in lst:
normalized_num = (value - min(lst)) / (max(lst) - min(lst))
normalized.append(normalized_num)
return normalized
이러한 정규화에도 문제가 이상치에 너무 많은 영향을 받는다.
예를 들어 수치의 개수가 99개가 0과 10사이에 있고 나머지 하나가 100이면 문제가 발생한다.
- 표준화: 정규 분포를 평균이 0이고 분산이 1인 표준 정규분포로 바꾸는것
학습전에 스케일릴 하는것으로 스케일이 큰 특성의 영향이 커지는걸 방지한다
- 원-핫 인코딩: 어떤것에 해당하는 특성만 1, 나머지는 0으로 하나하나 부여하는 것이다.
예를 들어 포도, 사과, 배 , 감자가 있을때 과일인것만 1을 나머지는 0으로 하는것이다.
- 구간화: 는 좀더 공부 할것
풀잎스쿨
Author And Source
이 문제에 관하여(아이펠 6일차 220103), 우리는 이곳에서 더 많은 자료를 발견하고 링크를 클릭하여 보았다 https://velog.io/@sangsang/아이펠-6일차-220103저자 귀속: 원작자 정보가 원작자 URL에 포함되어 있으며 저작권은 원작자 소유입니다.
우수한 개발자 콘텐츠 발견에 전념 (Collection and Share based on the CC Protocol.)