2기 - Day 2

[Today I Learned]

Warm-up

Feature Engineering

  • 수학적 통계, 도메인 지식을 활용해 유용한 feature 추출하는 과정
  • 데이터 전처리와 함께 데이터 분석, 머신러닝에서 중요한 과정
  • Feature Engineering는 데이터 전처리에 도움을 준다.
  • Feature Engineering 3가지 예시
    • Outlier detection
    • 결측치 처리
    • One hot encoding

Session - n112

  • Feature Engineering 은 도메인 지식과 창의성을 바탕으로, 데이터셋에 존재하는 Feature들을 재조합하여 새로운 Feature를 만든다.
  • string 데이터 다루기
  • apply함수를 이용한 데이터 수정
  • NaN은 float type이며 column의 데이터들이 float으로 type cast
  • NaN, NA, None, Undefined의 차이
  • Imputation(결측값 대체)

과제

<과제 하면서 새롭게 배운 내용>

  • pd.read_csv()에서 에서 thousands = ',' 옵션으로 천 단위 자리수 구분 기호 없애기
  • thousands 옵션을 사용해 구분 기호를 제거할 경우 자동으로 수치형으로 수정된다
  • 문자열 일부만 치환하고 싶은 경우는 replace 메서드에 regex=True를 설정하여 정규 표현식으로 문자열 치환을 원하는 부분만 할 수 있다
  • SettingWithCopyWarning 발생 이유

Reference

1. 형변환

  • 데이터 타입에 따라 갖는 bit값은 다르며 컴퓨터는 전혀 다른 방식으로 저장한다
  • 형 변환을 자동으로 처리해주는 전환작업을 자동(암시적) 형 변환이라 하며 자바가 대표적이다.

2. Integer vs Float

3. 데이터 익명화

  • 비식별화(익명처리)는 누구의 정보인지 알 수 없기 때문에 기업이 데이터를 정보 동의 없이 활용 가능하게 해준다.

4. Python List Comprehensions

[x**x for x in nums]
  • 리스트 안에 for문을 추가
  • if문도 활용 가능

좋은 웹페이지 즐겨찾기