mahout 는 kmeans 를 응용 하여 텍스트 집합 2 의 인 스 턴 스 분석 을 실시 합 니 다.
집합 알고리즘 의 주요 응용 장면 인 텍스트 분 류 는 텍스트 정보 에 대한 모델 링 도 흔히 볼 수 있 는 문제 이다.정보 검색 연구 분야 에서 이미 좋 은 모델 링 방식 이 있 는데 그것 이 바로 정보 검색 분야 에서 가장 자주 사용 하 는 벡터 공간 모델 이다.
주파수 - 역방향 텍스트 주파수 (Term Frequency – Inverse Document Frequency, TF - IDF): TF 방법 에 대한 강화 입 니 다. 단어의 중요성 은 파일 에 나타 나 는 횟수 에 따라 정비례 하여 증가 하지만 모든 텍스트 에 나타 나 는 빈도 에 따라 반비례 하여 떨 어 집 니 다.예 를 들 어 '고주파 무의미 어휘' 는 대부분 모든 텍스트 에 나타 나 기 때문에 그들의 가중치 가 크게 할인 되 어 텍스트 모델 이 텍스트 특징 을 묘사 하 는 데 더욱 정확 하 다.정보 검색 분야 에서 TF - IDF 는 텍스트 정보 모델 링 에 가장 많이 사용 되 는 방법 이다.
텍스트 정보의 양 적 화 에 대해 Mahout 은 도구 류 를 제 공 했 고 Lucene 을 바탕 으로 텍스트 정 보 를 분석 한 다음 에 텍스트 벡터 를 만 들 었 습 니 다.다음은 하나의 예 를 들 어 분석 한 텍스트 데 이 터 는 로 이 터 가 제공 한 뉴스 데이터 이다.데이터 세트 를 다운로드 한 후 "src / test / input" 디 렉 터 리 에 놓 습 니 다.데이터 세트 다운로드 주소:http://www.daviddlewis.com/resources/testcollections/reuters21578/
1. 로 이 터 의 데 이 터 를 압축 해제 하고 Mahout 은 전문 적 인 방법 을 제공 합 니 다.
File inputFolder = new File("src/test/input");
File outputFolder = new File("src/test/input-extracted");
ExtractReuters extractor = new ExtractReuters(inputFolder, outputFolder);
extractor.extract();
2. 데 이 터 를 SequenceFile 로 저장
mahout 는 seqdirectory 방법 으로 문자 텍스트 를 SequenceFile 로 직접 변환 할 수 있 습 니 다. bin / mahout seqdirectory - h 를 직접 사용 할 수 있 습 니 다. 이 명령 의 도움말 을 확인 하고 입력 과 출력 파 라 메 터 를 설정 합 니 다. 여기 의 입력 은 바로 이전 단계 에서 추출 한 텍스트 로 디 렉 터 리 는 "src / test / input - extracted" 에 있 습 니 다.
3. SequenceFile 파일 의 데 이 터 를 Lucene 의 도 구 를 바탕 으로 계량 화 합 니 다.
mahout 는 seq2sparse 명령 을 직접 제공 하여 방향 을 바 꿀 수 있 습 니 다. bin / mahout seq2sparse - h 를 직접 제공 하여 이 명령 의 도움 을 확인 하고 두 번 째 출력 으로 입력 할 수 있 습 니 다.
생 성 된 양 적 파일 의 디 렉 터 리 구 조 는 다음 과 같 습 니 다.
mahout kmeans 로 집합 하여 tf - vectors 디 렉 터 리 에 있 는 파일 을 입력 하 십시오. 전체 과정 이 맞다 면 출력 결과 디 렉 터 리 clusters - N 을 볼 수 있 습 니 다.
마지막 으로 mahout 가 제공 한 결 과 를 통 해 명령 mahout clusterdump 를 보고 집합 결 과 를 분석 할 수 있 습 니 다.
이 내용에 흥미가 있습니까?
현재 기사가 여러분의 문제를 해결하지 못하는 경우 AI 엔진은 머신러닝 분석(스마트 모델이 방금 만들어져 부정확한 경우가 있을 수 있음)을 통해 가장 유사한 기사를 추천합니다:
【Codility Lesson3】FrogJmpA small frog wants to get to the other side of the road. The frog is currently located at position X and wants to get to...
텍스트를 자유롭게 공유하거나 복사할 수 있습니다.하지만 이 문서의 URL은 참조 URL로 남겨 두십시오.
CC BY-SA 2.5, CC BY-SA 3.0 및 CC BY-SA 4.0에 따라 라이센스가 부여됩니다.