각종 모델 매개 변수 집합
7005 단어 분류 알고리즘 약술
1.1 SVC
sklearn.svm.SVC(C=1.0, kernel='rbf', degree=3, gamma='auto', coef0=0.0, shrinking=True, probability=False,
tol=0.001, cache_size=200, class_weight=None, verbose=False, max_iter=-1, decision_function_shape=None,random_state=None)
인자:
인삼 을 조제 하 다
SVM 분류 컴 퓨 팅 라 이브 러 리 파라미터 소결:
매개 변수
LinearSVC
SVC
NuSVC
벌칙 계수 C
즉, 우리 2 절 에서 SVM 분류 모델 의 원형 형식 과 대구 형식의 벌칙 계수 C 를 위해 기본 값 은 1 이 고 보통 교차 검증 을 통 해 적당 한 C 를 선택해 야 합 니 다.일반적으로 소음 점 이 많 을 때 C 는 작 아야 한다.
NuSVC 는 이 인자 가 없습니다. 다른 매개 변수 nu 를 통 해 훈련 집 훈련의 오류 율 을 제어 합 니 다. 이것 은 C 를 선택 하여 훈련 집 훈련 후 정확 한 오류 율 을 만족 시 키 는 것 과 같 습 니 다.
nu
LinearSVC 와 SVC 는 이 인자 가 없습니다. LinearSVC 와 SVC 는 벌칙 계수 C 를 사용 하여 벌칙 강 도 를 제어 합 니 다.
nu 는 훈련 집 훈련의 오류 율 상한 선 을 대표 하거나 벡터 의 백분율 하한 선 을 지원 한다. 수치 범 위 는 (0, 1) 이 고 기본 값 은 0.5 이다. 이 는 벌칙 계수 C 와 유사 하여 벌칙 의 강 도 를 조절 할 수 있다.
핵 함수 커 널
LinearSVC 는 이 인자 가 없습니다. LinearSVC 는 선형 핵 함수 만 사용 할 수 있 도록 제 한 했 습 니 다.
핵 함 수 는 네 가지 내장 선택 이 있 습 니 다. 세 번 째 절 에 서 는 'linear' 즉 선형 핵 함수, 'poly' 즉 여러 가지 핵 함수, 'rbf' 즉 고 스 핵 함수, 'sigmoid' 즉 sigmoid 핵 함수 라 고 말 했 습 니 다. 이 핵 함 수 를 선택 하면 해당 하 는 핵 함수 인 자 는 뒤에 단독 적 인 매개 변 수 를 조정 해 야 합 니 다. 기본 값 은 고 스 핵 'rbf' 입 니 다. 또 하나의 선택 은 'precoputed' 입 니 다."즉, 우 리 는 모든 훈련 집 과 테스트 집의 견본 에 대응 하 는 Gram 행렬 을 미리 계산 합 니 다. 그러면 K (x, z) 는 해당 하 는 Gram 행렬 에서 해당 하 는 위치의 값 을 직접 찾 습 니 다. 물론 우 리 는 핵 함 수 를 사용자 정의 할 수 있 습 니 다. 나 는 사용자 정의 핵 함 수 를 사용 한 적 이 없 기 때문에 더 이상 말 하지 않 겠 습 니 다."
정규 화 매개 변수 penalty
선형 적합 에 만 의미 가 있 으 며, 'l1' 즉 L1 정규 화 또는 'l2' 즉 L2 정규 화 를 선택 할 수 있 습 니 다. 기본 값 은 L2 정규 화 입 니 다. 희소 한 계수 가 필요 할 때 는 L1 정규 화 를 선택 할 수 있 습 니 다. 이 는 선형 회귀 의 Lasso 회귀 와 유사 합 니 다.
SVC 와 NuSVC 에는 이 인자 가 없습니다.
듀 얼 을 쌍 으로 최적화 할 지 여부
이것 은 불 변수 입 니 다. 쌍 대 형식 을 사용 하여 알고리즘 을 최적화 할 지 여 부 를 제어 합 니 다. 기본 값 은 True 입 니 다. 즉, 위의 두 번 째 절 에 있 는 분류 알고리즘 쌍 대 형식 으로 알고리즘 을 최적화 합 니 다. 만약 에 우리 의 샘플 양 이 비트 정수 가 많 으 면 쌍 대 형식 으로 계 산 량 이 많 습 니 다. dual 을 False 로 설정 하 는 것 을 추천 합 니 다. 즉, 원시 적 인 형식 으로 최적화 합 니 다.
SVC 와 NuSVC 에는 이 인자 가 없습니다.
핵 함수 매개 변수 degree
LinearSVC 는 이 인자 가 없습니다. LinearSVC 는 선형 핵 함수 만 사용 할 수 있 도록 제 한 했 습 니 다.
만약 우리 가 kernel 매개 변수 에 다항식 핵 함수 'poly' 를 사용 했다 면, 우 리 는 이 매개 변 수 를 조정 해 야 합 니 다. 이 매개 변 수 는 대응 합 니 다 (K (x, z) = (γx. z + r) d 의 d. 기본 값 은 3 입 니 다. 보통 교차 검증 을 통 해 적당 한 그룹 을 선택해 야 합 니 다.
핵 함수 파라미터 gamma
LinearSVC 는 이 인자 가 없습니다. LinearSVC 는 선형 핵 함수 만 사용 할 수 있 도록 제 한 했 습 니 다.
만약 에 우리 가 kernel 매개 변수 에 여러 가지 핵 함수 'poly', 고 스 핵 함수 'rbf' 또는 sigmoid 핵 함 수 를 사용 했다 면 우 리 는 이 매개 변 수 를 조정 해 야 합 니 다. 여러 가지 핵 함수 에서 이 매개 변 수 는 대응 (K (x, z) = (γx. z + r) d 의γ일반적으로 교차 검증 을 통 해 적합 한 그룹 을 선택해 야 한다.γ,r, d 고 스 핵 함수 에서 이 매개 변 수 는 K (x, z) = exp (γ
핵 함수 파라미터 coef 0
LinearSVC 는 이 인자 가 없습니다. LinearSVC 는 선형 핵 함수 만 사용 할 수 있 도록 제 한 했 습 니 다.
만약 우리 가 kernel 매개 변수 에 다항식 핵 함수 'poly' 나 sigmoid 핵 함 수 를 사용 했다 면, 우 리 는 이 매개 변 수 를 조정 해 야 합 니 다. 다항식 핵 함수 에서 이 매개 변 수 는 대응 합 니 다 (K (x, z) = (γx. z + r) d 의 r. 보통 교차 검증 을 통 해 적당 한 그룹 을 선택해 야 합 니 다.γ,r, d sigmoid 핵 함수 에서 이 매개 변 수 는 대응 (K (x, z) = tanh (γx. z + r) 의 r. 보통 교차 검증 을 통 해 적당 한 그룹 을 선택해 야 합 니 다.γ,r coef 0 기본 값 0
샘플 가중치 class weight
샘플 의 각 유형의 가중치 를 지정 하 는 것 은 주로 훈련 집의 일부 유형의 견본 이 너무 많아 서 훈련 결정 이 이러한 유형 에 지나치게 치 우 치 는 것 을 방지 하기 위해 서 입 니 다. 여 기 는 각 견본 의 가중치 를 스스로 지정 하거나 "balanced" 를 사용 할 수 있 습 니 다. 만약 에 "balanced" 를 사용 하면, 알고리즘 은 스스로 가중치 를 계산 하고, 견본 의 양 이 적은 유형 에 대응 하 는 견본 의 가중치 가 높 습 니 다. 물론, 견본 의 유형 분포 가 뚜렷 한 편향 이 없다 면, 이 매개 변 수 를 상관 하지 않 고 기본 적 인 "None" 를 선택 할 수 있 습 니 다.
분류 결정 decision function shape
LinearSVC 에는 이 인자 가 없습니다. multi class 인 자 를 사용 하여 대체 합 니 다.
'ovo' 또는 'ovo' 를 선택 할 수 있 습 니 다. 현재 0.18 버 전 은 기본적으로 'ovo' 입 니 다. 0.19 버 전 은 'ovr' OvR (one ve rest) 입 니 다.의 사상 은 매우 간단 합 니 다. 당신 이 몇 원 의 분류 든 지 간 에 우 리 는 모두 이원 분류 로 볼 수 있 습 니 다. 구체 적 인 방법 은 K 류 의 분류 결정 에 대해 우 리 는 모든 K 류 의 견본 을 정규 로 하고 K 류 견본 을 제외 한 모든 견본 을 마이너스 로 한 다음 에 위 에서 이원 분 류 를 하여 K 류 의 분류 모델 을 얻 는 것 입 니 다. 다른 유형의 분류 모델 은 이런 추 세 를 얻 었 습 니 다.OvO (one - vs - one) 는 매번 모든 T 류 견본 중에서 두 가지 견본 을 선택 하 는 것 입 니 다. T1 류 와 T2 류 로 기록 하고 모든 출력 을 T1 과 T2 로 하 는 견본 을 함께 놓 아 T1 을 정규 로 하고 T2 를 마이너스 로 하여 이원 분 류 를 하여 모델 파 라미 터 를 얻 습 니 다. 저 희 는 모두 T (T - 1) 가 필요 합 니 다./ 2 차 분류. 위의 설명 을 통 해 알 수 있 듯 이 OvR 은 상대 적 으로 간단 하지만 분류 효 과 는 상대 적 으로 약 하 다. (대부분의 견본 분포 상황 을 말 하 며, 일부 견본 분포 에서 OvR 이 더 좋 을 수 있다) OvO 분 류 는 상대 적 으로 정확 하지만 분류 속 도 는 OvR 보다 빠 르 지 않다. 일반적으로 OvO 를 사용 하여 비교적 좋 은 분류 효 과 를 얻 는 것 을 권장 한다.
분류 결정 multi class
'ovr' 나 'crammer singer' ovr '를 선택 할 수 있 습 니 다. SVC 와 nuSVC 의 decision function shape 에 대응 하 는' ovr '와 유사 합 니 다.' crammer singer '는 개량 판' ovr '로 개량 이 라 고 하지만' ovr '보다 좋 은 것 은 없습니다. 일반적으로 응용 에서 사용 하 는 것 을 권장 하지 않 습 니 다.
SVC 와 nuSVC 는 이 인자 가 없 으 며 decision function shape 인 자 를 대체 합 니 다.
캐 시 크기 cache size
LinearSVC 계 산 량 이 많 지 않 기 때문에 이 매개 변 수 는 필요 없습니다.
큰 견본 의 경우 캐 시 크기 가 훈련 속도 에 영향 을 줄 수 있 으 므 로 기계 메모리 가 크 면 500 MB, 심지어 1000 MB 를 사용 하 는 것 을 추천 합 니 다. 기본 값 은 200, 즉 200 MB 입 니 다.