인터넷 이미지 분류를 시도했습니다.

인터넷 이미지 분류를 시도했습니다.



인터넷상의 이미지와 관련된 정보로부터, 이미지가 광고인지를 예측하는 모델을 작성에 도전해 보았다.



데이터 개요



과제 종류: 분류
데이터 유형: 다변량
학습 데이터 샘플 수: 1639
설명 변수 수: 1558
누락 값: 예

이번에는 특징량이 많습니다. 내용은 생략합니다. 1560의 특징량 처리 방법은 어떻게 되어 버리는 것인가!


모델 작성 시작했습니다. 현재는 유효 특징량 약 64%로 계산


분석 항목이 유석에 많았기 때문에 중복 특징량을 제외한다.
특징량 2를 작성 BEST20보다

비망으로서 특징량 임팩트와 특징량 뉴 세트



모델 특징량의 영향을 수행
중복 피쳐를 식별한 후 중복 피처를 제외한 새로운 피쳐 세트를 작성할 수 있습니다. 선택적으로 사용자가 지정한 상위 N 특성을 포함하는 새로운 특징 집합을 생성합니다.



재계산 중 06:30 20200723

DataRobot 해설에서 인용 특징량 임팩트에 대해서



특징량의 영향 점수 이해
특징량의 영향을 이해하는 한 가지 방법은 다음과 같습니다. 임의 컬럼에 대한 특징량의 영향은 DataRobot이 컬럼을 무작위로 셔플하여 예측할 때(다른 컬럼은 변경하지 않고) 모델의 성능이 얼마나 악화되는지의 지표입니다. DataRobot은 점수를 정규화하여 가장 중요한 열 값이 1이 되도록 합니다. 이 기술을 Permutation Importance(대체 중요성)라고 합니다.

특징량의 영향 점수를 평가할 때는 다음 사항에 유의하십시오.

특징량의 영향은 모델의 훈련 데이터의 최대 2500행을 사용하여 계산됩니다.
때때로 데이터에 포함된 랜덤 노이즈로 인해 음의 특징량의 영향 점수를 포함하는 특징량이 있을 수 있습니다. 극도로 불균형한 데이터의 경우 대부분 음수가 될 수 있습니다.
프로젝트 지표는 계산에 사용되므로 프로젝트 지표의 선택에 따라 특징 량의 영향 결과에 큰 영향을 줄 수 있습니다. AUC와 같은 일부 지표는 모델 출력에서 ​​작은 변화에 대한 진양성률이 낮기 때문에 특징량의 변화가 모델의 정확도에 얼마나 영향을 미치는지 평가하기에는 적합하지 않습니다.
일부 조건 하에서 모델링에 사용되는 알고리즘의 함수로 인해 특징 량의 영향의 결과가 달라질 수 있습니다. 예를 들어, 유사한 강력한 신호가 많이 있는 데이터(예: 동일한 사례와 행에 대해 동일한 예측값이 제공되는 경우)에서 발생합니다. 이러한 경우, L1 페널티를 사용하는 알고리즘(예: 일부 선형 모델)의 경우, 충격은 하나의 신호에 집중되며, 트리의 경우 상관된 여러 신호에 걸쳐 균일하게 분산됩니다.

-



--200723 06:41 올림픽이 사실이라면--

좋은 웹페이지 즐겨찾기