아이펠 6일차 220103

lms
금일은 데이터 전처리에 대해 공부하였다.

  • 결측치
    값이 없는것 (NULL) 비어있는
  • 중복데이터 삭제
    데이터에서 중복되는 데이터가 발생할 경우 제거하는 것.
  • 이상치(아웃라이어)
    여타할 값의 범주에서 너무나도 크거나 작은 값을 의미
  • 정규화(Normalization)
    보통 norm이라고도 많이 하는 데이터 전처리 프로세스로 어떠한 데이터가 가진 특성의 스케일이 많이 벌어지는 경우 문제가 되기에 이걸 다듬는 과정을 정규화라고 한다.

    위와 같이 간격극이 심한 데이터들을 정제하는 것.
    • min-max: 최소-최대로 정규화하는 방법으로 최소와 최대값 사이의 값으로 변환.
      최소값은 0 , 최대값은 1로 변환하는 방법이다.
      식:
def min_max_normalize(lst):
    normalized = []
    
    for value in lst:
        normalized_num = (value - min(lst)) / (max(lst) - min(lst))
        normalized.append(normalized_num)
    
    return normalized
이러한 정규화에도 문제가 이상치에 너무 많은 영향을 받는다.
예를 들어 수치의 개수가 99개가 0과 10사이에 있고 나머지 하나가 100이면 문제가 발생한다.
  • 표준화: 정규 분포를 평균이 0이고 분산이 1인 표준 정규분포로 바꾸는것
    학습전에 스케일릴 하는것으로 스케일이 큰 특성의 영향이 커지는걸 방지한다
  • 원-핫 인코딩: 어떤것에 해당하는 특성만 1, 나머지는 0으로 하나하나 부여하는 것이다.
    예를 들어 포도, 사과, 배 , 감자가 있을때 과일인것만 1을 나머지는 0으로 하는것이다.
  • 구간화: 는 좀더 공부 할것

풀잎스쿨


좋은 웹페이지 즐겨찾기