scikit-learn을 통한 문제 해결 방법
1823 단어 파이썬scikit-learn기계 학습
scikit-learn 문서에는 알고리즘의 사양 설명뿐만 아니라 기계 학습에 대한 접근 방법에 대해서도 설명되어 있습니다.
기계 학습의 문제 해결을 위해 시행착오할 때, 도표가 되는 기본적인 어프로치 방법이 정리되어 있으므로 소개합니다.
문서
scikit-learn 문서는 안정 버전 1.0을 기반으로 소개합니다.
개발판의 1.1도 공개되고 있으므로 흥미가 있는 분은 들여다 봐 주세요.
안정판 1.0
개발 버전 1.1과 같은 다른 버전
GitHub 소스 등
검출기 선택 방법
기계 학습 문제를 해결하는 가장 어려운 일은 종종 그 작업에 적합한 추정기를 찾는 것입니다.
머신 러닝 기법이 아니라 데이터가있는 문제를 해결해야하므로 데이터의 특성을 잘 이해하고 최적의 기법을 선택해야합니다.
데이터 유형과 문제에 따라 적절한 추정기가 다릅니다.
다음 순서도는 데이터에 대해 어떤 추정기를 시도해야 하는지, 문제를 해결해야 하는 방법과 대략적인 가이드가 되도록 설계되었습니다.
아래 순서도의 각 추정량을 클릭하면 해당 문서가 표시됩니다.
오렌지색 START에서 보면 알고리즘을 선택하는 분기점에는 데이터 수가 10K나 100K 이상인지 여부가 판단 재료가 되어 있을 수 있습니다.
자신이 사용한 적이 있는 어프로치 뿐만이 아니라, 데이터의 특징에 근거해 판단해 어프로치 방법을 바꾸어 보는 것도 중요합니다.
녹색 검출기에 도달하면 네 가지 큰 카테고리 (classification, regression, clustering, dimensionality reduction)로 나뉩니다. 이하에 4개의 카테고리의 특징을 정리합니다.
분류 classification
어떤 물체가 어느 카테고리에 속하는지를 식별하는 것.
응용 예는 스팸 감지, 이미지 인식.
알고리즘은 SVM, nearest neighbors, random forest, 등.
회귀 regression
물체와 연관된 연속 값의 속성을 예측하는 단계;
응용예는 의약품의 반응, 주가의 추이.
알고리즘은 SVR, nearest neighbors, random forest 등.
클러스터링 clustering
유사한 객체를 세트로 자동으로 그룹화합니다.
응용 예는 고객의 세분화, 실험 결과의 그룹화.
알고리즘은 k-Means, 스펙트럼 클러스터링, Mean-Shift 등.
차원 감소 dimensionality reduction
고려해야 할 확률 변수의 수를 줄이는 것.
응용예는 가시화, 효율화.
알고리즘은 k-Means, 특징 선택, 비음 행렬 인자 분해 등.
Reference
이 문제에 관하여(scikit-learn을 통한 문제 해결 방법), 우리는 이곳에서 더 많은 자료를 발견하고 링크를 클릭하여 보았다 https://qiita.com/ysit/items/f69ae47aa1b599299c2f텍스트를 자유롭게 공유하거나 복사할 수 있습니다.하지만 이 문서의 URL은 참조 URL로 남겨 두십시오.
우수한 개발자 콘텐츠 발견에 전념 (Collection and Share based on the CC Protocol.)