scikit-learn을 통한 문제 해결 방법

파이썬에서 사용할 수 있는 기계 학습 라이브러리인 scikit-learn이 있습니다. 분석을 한 사람이라면 사용한 적이 있다고 생각합니다.

scikit-learn 문서에는 알고리즘의 사양 설명뿐만 아니라 기계 학습에 대한 접근 방법에 대해서도 설명되어 있습니다.

기계 학습의 문제 해결을 위해 시행착오할 때, 도표가 되는 기본적인 어프로치 방법이 정리되어 있으므로 소개합니다.

문서



scikit-learn 문서는 안정 버전 1.0을 기반으로 소개합니다.
개발판의 1.1도 공개되고 있으므로 흥미가 있는 분은 들여다 봐 주세요.

안정판 1.0

개발 버전 1.1과 같은 다른 버전

GitHub 소스 등

검출기 선택 방법



기계 학습 문제를 해결하는 가장 어려운 일은 종종 그 작업에 적합한 추정기를 찾는 것입니다.
머신 러닝 기법이 아니라 데이터가있는 문제를 해결해야하므로 데이터의 특성을 잘 이해하고 최적의 기법을 선택해야합니다.

데이터 유형과 문제에 따라 적절한 추정기가 다릅니다.

다음 순서도는 데이터에 대해 어떤 추정기를 시도해야 하는지, 문제를 해결해야 하는 방법과 대략적인 가이드가 되도록 설계되었습니다.

아래 순서도의 각 추정량을 클릭하면 해당 문서가 표시됩니다.



오렌지색 START에서 보면 알고리즘을 선택하는 분기점에는 데이터 수가 10K나 100K 이상인지 여부가 판단 재료가 되어 있을 수 있습니다.

자신이 사용한 적이 있는 어프로치 뿐만이 아니라, 데이터의 특징에 근거해 판단해 어프로치 방법을 바꾸어 보는 것도 중요합니다.

녹색 검출기에 도달하면 네 가지 큰 카테고리 (classification, regression, clustering, dimensionality reduction)로 나뉩니다. 이하에 4개의 카테고리의 특징을 정리합니다.

분류 classification



어떤 물체가 어느 카테고리에 속하는지를 식별하는 것.

응용 예는 스팸 감지, 이미지 인식.
알고리즘은 SVM, nearest neighbors, random forest, 등.

회귀 regression



물체와 연관된 연속 값의 속성을 예측하는 단계;

응용예는 의약품의 반응, 주가의 추이.
알고리즘은 SVR, nearest neighbors, random forest 등.

클러스터링 clustering



유사한 객체를 세트로 자동으로 그룹화합니다.

응용 예는 고객의 세분화, 실험 결과의 그룹화.
알고리즘은 k-Means, 스펙트럼 클러스터링, Mean-Shift 등.

차원 감소 dimensionality reduction



고려해야 할 확률 변수의 수를 줄이는 것.

응용예는 가시화, 효율화.
알고리즘은 k-Means, 특징 선택, 비음 행렬 인자 분해 등.

좋은 웹페이지 즐겨찾기