Python으로 시작하는 기계 학습 보고서 ④
2672 단어 기계 학습 입문
4장 데이터의 표현과 특징량 엔지니어링
특정 애플리케이션의 경우,
최상의 데이터 표현을 모색하는 것을 특징량 엔지니어링(feature engineering)이라고 한다.
카테고리 변수
이하와 같은 데이터의 경우,
연봉이 500만엔을 넘는가? 초과하지 않습니까?
라는 2 클래스 분류를 할 수도 있고,
연봉을 예측한다는 접근도 가능하다.
나이
고용형태
학력
성별
연봉
39
공무원
대학
남자
500만 이하
50
자영업
대학
남자
500만 이하
38
민간
고졸
남자
500만 이하
52
자영업
고졸
남자
500만 초과
31
민간
원졸
여자
500만 초과
42
민간
대학
남자
500만 초과
하지만, 「연봉이 500만엔을 넘는가? 넘지 않는가?」라고 하는 문제에 대해서는,
2 클래스 분류가 더 쉽습니다.
이 데이터의 「학력」은, 연속치(수치)가 아니기 때문에,
로지스틱 회귀 분석에는 직접 적용 할 수 없습니다.
따라서 데이터는 다른 방식으로 표현됩니다.
원 핫 인코딩
위의 예에서, 「학력」등을 각각 「1」과 「0」의 플래그로 치환해 데이터화하는 것을
원핫 인코딩(one hot encoding)이라고 한다.
학력
중졸
고졸
대졸
중졸
1
0
0
고졸
0
1
0
대졸
0
0
1
비닝, 이산화, 선형 모델, 결정 트리
비닝(binning)=이산화(discretization)란,
특징 량을 복수로 분할하는 것이다.
위의 데이터를 이산화하면 다음과 같습니다.
빈(bin)마다 출력을 예측하므로,
선형 회귀도 결정 트리도 동일한 값을 나타냅니다.
선형 회귀에 있어서는 장점이 있지만,
결정 트리는 원래 비닝 기능을 갖추고 있기 때문에 특별한 이점은 없다.
따라서 선형 회귀를 사용하려는 경우 이산화를 수행하는 것이 좋습니다.
자동 특징량 선택
특징량이 많으면 모델은 복잡해져 계산도 비용이 든다.
따라서, 유효한 특징량만을 사용함으로써 효과적으로 혜택을 얻을 수 있다.
그러나 어떤 특징량이 유효한지를 어떻게 판단하는가
라는 것이 문제이다. 거기서
다음 세 가지 방법을 사용합니다.
단변량 통계(univariate analysis)
특징량과 출력에 통계적으로 관계가 있을지 어떨지를 계산해,
가장 높게 관련되어 있는 특징량을 하나씩 조사해 나가는 수법이다.
모델 기반 특징 선택 (model-based selection)
교사 있어 학습 모델을 사용해, 각 특징량의 중요성을 판단하는 수법이다.
반복 특징 선택 (iterative selection)
다른 특징량을 모델을 만드는 수법이며,
방법은 2가지 있다.
① 하나씩 특징량을 더해 가고 출력을 비교해 나간다.
②모든 특징량을 편입한 후, 하나씩 특징량을 뺀다.
이것을 RFE (Recursive feature elimination) (랜덤 포리스트)라고합니다.
결정 트리를 복수 작성한 후, 그 다수결에서 유효한 것을 분류하는 수법이다.
파라미터가 흩어져 있을 때 정밀도가 나빠지면 중요도가 높다고 판단할 수 있다.
전문가 지식 이용
예를 들어, JR 도카이에 근무하고 있다고,
가격·역·날짜를 기록한 데이터로 학습 모델을 만들었다고 한다.
그러나 천황 즉위의 날을 알 수 있는 것은 아니다.
이 경우, 특징 량을 미리 통합하여,
대응할 수 있다.
기계가 판단할 수 없는 부분에서도, 인간이 이해하고 있는 부분을 통합함으로써
계산 비용이 감소되는 예는 얼마든지이다.
Reference
이 문제에 관하여(Python으로 시작하는 기계 학습 보고서 ④), 우리는 이곳에서 더 많은 자료를 발견하고 링크를 클릭하여 보았다
https://qiita.com/0Scher/items/b3224938cc2eb9bb65ab
텍스트를 자유롭게 공유하거나 복사할 수 있습니다.하지만 이 문서의 URL은 참조 URL로 남겨 두십시오.
우수한 개발자 콘텐츠 발견에 전념
(Collection and Share based on the CC Protocol.)
Reference
이 문제에 관하여(Python으로 시작하는 기계 학습 보고서 ④), 우리는 이곳에서 더 많은 자료를 발견하고 링크를 클릭하여 보았다 https://qiita.com/0Scher/items/b3224938cc2eb9bb65ab텍스트를 자유롭게 공유하거나 복사할 수 있습니다.하지만 이 문서의 URL은 참조 URL로 남겨 두십시오.
우수한 개발자 콘텐츠 발견에 전념 (Collection and Share based on the CC Protocol.)