2기 - Day 2
[Today I Learned]
Warm-up
Feature Engineering
- 수학적 통계, 도메인 지식을 활용해 유용한 feature 추출하는 과정
- 데이터 전처리와 함께 데이터 분석, 머신러닝에서 중요한 과정
- Feature Engineering는 데이터 전처리에 도움을 준다.
- Feature Engineering 3가지 예시
- Outlier detection
- 결측치 처리
- One hot encoding
Session - n112
- Feature Engineering 은 도메인 지식과 창의성을 바탕으로, 데이터셋에 존재하는 Feature들을 재조합하여 새로운 Feature를 만든다.
- string 데이터 다루기
- apply함수를 이용한 데이터 수정
- NaN은 float type이며 column의 데이터들이 float으로 type cast
- NaN, NA, None, Undefined의 차이
- Imputation(결측값 대체)
과제
- Outlier detection
- 결측치 처리
- One hot encoding
<과제 하면서 새롭게 배운 내용>
- pd.read_csv()에서 에서 thousands = ',' 옵션으로 천 단위 자리수 구분 기호 없애기
- thousands 옵션을 사용해 구분 기호를 제거할 경우 자동으로 수치형으로 수정된다
- 문자열 일부만 치환하고 싶은 경우는 replace 메서드에 regex=True를 설정하여 정규 표현식으로 문자열 치환을 원하는 부분만 할 수 있다
- SettingWithCopyWarning 발생 이유
Reference
1. 형변환
- 데이터 타입에 따라 갖는 bit값은 다르며 컴퓨터는 전혀 다른 방식으로 저장한다
- 형 변환을 자동으로 처리해주는 전환작업을 자동(암시적) 형 변환이라 하며 자바가 대표적이다.
2. Integer vs Float
3. 데이터 익명화
- 비식별화(익명처리)는 누구의 정보인지 알 수 없기 때문에 기업이 데이터를 정보 동의 없이 활용 가능하게 해준다.
4. Python List Comprehensions
[x**x for x in nums]
- 리스트 안에 for문을 추가
- if문도 활용 가능
Author And Source
이 문제에 관하여(2기 - Day 2), 우리는 이곳에서 더 많은 자료를 발견하고 링크를 클릭하여 보았다 https://velog.io/@jaylee/AI부트캠프-2기-Day-2저자 귀속: 원작자 정보가 원작자 URL에 포함되어 있으며 저작권은 원작자 소유입니다.
우수한 개발자 콘텐츠 발견에 전념 (Collection and Share based on the CC Protocol.)