기계 학습 10 대 고전 알고리즘 상세 설명
1、C4.5
C 4.5 알고리즘 은 기계 학습 알고리즘 중의 분류 결정 트 리 알고리즘 으로 그 핵심 알고리즘 은 ID3 알고리즘 이다. C 4.5 알고리즘 은 ID3 알고리즘 의 장점 을 계승 하고 다음 과 같은 몇 가지 측면 에서 ID3 알고리즘 을 개선 했다.
1)정보 이득 률 로 속성 을 선택 하여 정보 이득 으로 속성 을 선택 할 때 수치 가 많은 속성 을 선택 하 는 부족 을 극복 했다.
2)나무 구조 과정 에서 가지치기 하기;
3)연속 속성 에 대한 이산 화 처 리 를 완성 할 수 있다.
4)불완전한 데 이 터 를 처리 할 수 있다.
C 4.5 알고리즘 은 다음 과 같은 장점 이 있다.발생 하 는 분류 규칙 은 이해 하기 쉽 고 정확도 가 높다.단점 은 트 리 를 구성 하 는 과정 에서 데이터 세트 를 여러 번 순서대로 스 캔 하고 정렬 해 야 하기 때문에 알고리즘 이 비효 율 적 이라는 것 이다.
2.The k-means algorithm 즉 K-Means 알고리즘
k-means algorithm 알고리즘 은 집합 알고리즘 으로 n 의 대상 을 그들의 속성 에 따라 k 개의 분할,k
벡터 머 신(Support Vector Machine)을 지원 하 며 SV 머 신(논문 에 서 는 일반적으로 SVM 으로 약칭)이 라 고 약칭 합 니 다.이것 은 일종 의 감독 식 학습 방법 으로 통계 분류 와 회귀 분석 에 광범 위 하 게 응용 된다.벡터 기 를 지원 하여 벡터 를 더 높 은 차원 의 공간 에 투사 하여 이 공간 에 최대 간격 초 평면 을 만 듭 니 다.데 이 터 를 분리 하 는 초 평면 양쪽 에 서로 평행 하 는 초 평면 이 세 워 져 있다.초 평면 을 분리 하여 두 평행 초 평면 의 거 리 를 최대 화하 다.평행 초 평면 간 의 거리 나 차이 가 클 수록 분류 기의 총 오차 가 적다 고 가정 한다.아주 좋 은 지침 은 C.J.C Burges 의'패턴 인식 지원 벡터 기 지침'이다.van der Walt 와 Barnard 는 벡터 기와 다른 분류 기 를 비교 했다.
4、The Apriori algorithm
Apriori 알고리즘 은 불 관련 규칙 의 빈번 한 항목 집합 을 발굴 하 는 데 가장 영향 을 미 치 는 알고리즘 이다.그 핵심 은 2 단계 주파수 집합 사상 을 바탕 으로 하 는 전달 알고리즘 이다.이 관련 규칙 은 분류 상 단 차원,단층,불 관련 규칙 에 속한다.여기 서 모든 지지 도가 최소 지지 도 보다 큰 항목 집합 을 빈번 한 항목 집합 이 라 고 부 르 며 주파수 집합 이 라 고 부른다.
5.최대 기대(EM)알고리즘
통계 계산 에서 최대 기대(EM,ExpectationCMaximization)알고리즘 은 확률(probabilistic)모델 에서 매개 변수 가 가장 유사 하 게 추정 되 는 알고리즘 을 찾 는데 그 중에서 확률 모델 은 관측 할 수 없 는 숨겨 진 변수(Latent Variabl)에 의존한다.가장 큰 기 대 는 기계 학습 과 컴퓨터 시각의 데이터 집합(Data Clustering)분야 에 자주 쓰 인 다.
6.PageRank 홈 페이지 순위
PageRank 은 Google 알고리즘 의 중요 한 내용 입 니 다.2001 년 9 월 에 미국 특 허 를 수 여 받 았 고 특허 인 은 구 글 의 창시자 중 한 명인 래 리 페이지(Larry Page)였 다.따라서 PageRank 의 page 는 웹 페이지 가 아니 라 페 이 치 를 말 합 니 다.즉,이 등급 방법 은 페 이 치 로 명명 되 었 습 니 다.
페이지 랭크 는 사이트 의 외부 링크 와 내부 링크 의 수량 과 품질 에 따라 사이트 의 가 치 를 평가한다.페이지 로 가 는 모든 링크 가 해당 페이지 에 대한 한 번 의 투표 이 며,링크 가 많 을 수록 다른 사이트 에 더 많이 투표 되 는 것 을 의미 한 다 는 게 PageRank 배후 의 개념 이다.이것 이 바로 이른바'링크 유행 도'이다.얼마나 많은 사람들 이 그들의 사이트 와 당신 의 사 이 트 를 연결 하고 싶 어 하 는 지 를 평가 하 는 것 이다.PageRank 이라는 개념 은 학술 논문 에서 인용 되 는 빈도-즉,다른 사람 이 인용 하 는 횟수 가 많 을 수록 이 논문 의 권위 성 을 판단 하 는 것 이다.
7、AdaBoost
Adaboost 는 일종 의 교체 알고리즘 으로 그 핵심 사상 은 같은 훈련 집 을 대상 으로 서로 다른 분류 기(약 분류 기)를 훈련 한 다음 에 이런 약 분류 기 를 집합 시 켜 더욱 강 한 최종 분류 기(강 분류 기)를 구성 하 는 것 이다.그 알고리즘 자 체 는 데이터 분 포 를 바 꾸 어 이 루어 진 것 으로 매번 훈련 집 에서 각 견본 의 분류 가 정확 한 지,그리고 지난번 의 전체적인 분류의 정확도 에 따라 각 견본 의 가중치 를 확인한다.가중치 가 수 정 된 새로운 데이터 세트 를 하층 분류 기 에 보 내 훈련 시 키 고 마지막 으로 훈련 할 때마다 얻 은 분류 기 를 마지막 으로 융합 시 켜 최후 의 의사 결정 분류 기로 한다.
8、kNN: k-nearest neighbor classification
K 최근 이웃(k-Nearest Neighbor,KNN)분류 알고리즘 은 이론 적 으로 비교적 성숙 한 방법 이자 가장 간단 한 기계 학습 알고리즘 중 하나 이다.이 방법의 사고방식 은 만약 에 샘플 이 특징 공간 에서 k 개가 가장 비슷 하 다(즉 특징 공간 에서 가장 가깝다)는 샘플 중 대부분이 특정한 유형 에 속한다 면 이 샘플 도 이 유형 에 속한다.
9,Naive Bayes 소박 한 베 이 루스
여러 분류 모델 중에서 가장 광범 위 하 게 응용 되 는 두 가지 분류 모델 은 결정 트 리 모델(Decision Tree Model)과 소박 한 베 이 루스 모델(Naive Bayesian Model,NBC)이다.소박 한 베 이 루스 모델 은 고전 수학 이론 에서 기원 되 었 고 튼튼한 수학 기초 와 안정 적 인 분류 효율 을 가진다.또한 NBC 모델 에 필요 한 매개 변수 가 적 고 데이터 부족 에 민감 하지 않 으 며 알고리즘 도 간단 하 다.이론 적 으로 NBC 모델 은 다른 분류 방법 에 비해 가장 작은 오차 율 을 가지 고 있다.그러나 실제 적 으로 항상 그렇지 않다.이것 은 NBC 모델 가설 속성 간 에 서로 독립 되 기 때문이다.이 가설 은 실제 응용 에서 흔히 성립 되 지 않 기 때문에 NBC 모델 의 정확 한 분류 에 어느 정도 영향 을 미 쳤 다.속성 개수 가 비교적 많 거나 속성 간 의 상관 성 이 비교적 클 때 NBC 모델 의 분류 효율 은 결정 트 리 모델 보다 못 하 다.반면 속성 관련 성 은 시간 에 비해 NBC 모델 의 성능 이 가장 좋다.
10.CART:분류 와 회귀 트 리
CART, Classification and Regression Trees。분류 수 아래 에는 두 가지 관건 적 인 사상 이 있다.첫 번 째 는 독립 변수 공간 을 재 귀적 으로 구분 하 는 생각 이다.두 번 째 아 이 디 어 는 검증 데이터 로 가 지 를 자 르 는 것 이다.
이상 이 바로 본 고의 모든 내용 입 니 다.여러분 의 학습 에 도움 이 되 고 저 희 를 많이 응원 해 주 셨 으 면 좋 겠 습 니 다.
이 내용에 흥미가 있습니까?
현재 기사가 여러분의 문제를 해결하지 못하는 경우 AI 엔진은 머신러닝 분석(스마트 모델이 방금 만들어져 부정확한 경우가 있을 수 있음)을 통해 가장 유사한 기사를 추천합니다:
형태소 분석은 데스크톱을 구성하는 데 도움이?문자×기계 학습에 흥미를 가져와 개인 범위의 용도를 생각해, 폴더 정리에 사용할 수 있을까 생각해 검토를 시작했습니다. 이번 검토에서는 폴더 구성 & text의 읽기 → mecab × wordcloud를 실시하고 있...
텍스트를 자유롭게 공유하거나 복사할 수 있습니다.하지만 이 문서의 URL은 참조 URL로 남겨 두십시오.
CC BY-SA 2.5, CC BY-SA 3.0 및 CC BY-SA 4.0에 따라 라이센스가 부여됩니다.