mahout 는 kmeans 를 응용 하여 텍스트 집합 2 의 인 스 턴 스 분석 을 실시 합 니 다.

Mahout 에서in_Action 이 책 은 텍스트 의 집합 인 스 턴 스 를 제공 하고 원본 입력 데 이 터 를 제공 합 니 다. 다음은 예 를 들 어 설명 합 니 다.
집합 알고리즘 의 주요 응용 장면 인 텍스트 분 류 는 텍스트 정보 에 대한 모델 링 도 흔히 볼 수 있 는 문제 이다.정보 검색 연구 분야 에서 이미 좋 은 모델 링 방식 이 있 는데 그것 이 바로 정보 검색 분야 에서 가장 자주 사용 하 는 벡터 공간 모델 이다.
주파수 - 역방향 텍스트 주파수 (Term Frequency – Inverse Document Frequency, TF - IDF): TF 방법 에 대한 강화 입 니 다. 단어의 중요성 은 파일 에 나타 나 는 횟수 에 따라 정비례 하여 증가 하지만 모든 텍스트 에 나타 나 는 빈도 에 따라 반비례 하여 떨 어 집 니 다.예 를 들 어 '고주파 무의미 어휘' 는 대부분 모든 텍스트 에 나타 나 기 때문에 그들의 가중치 가 크게 할인 되 어 텍스트 모델 이 텍스트 특징 을 묘사 하 는 데 더욱 정확 하 다.정보 검색 분야 에서 TF - IDF 는 텍스트 정보 모델 링 에 가장 많이 사용 되 는 방법 이다.
텍스트 정보의 양 적 화 에 대해 Mahout 은 도구 류 를 제 공 했 고 Lucene 을 바탕 으로 텍스트 정 보 를 분석 한 다음 에 텍스트 벡터 를 만 들 었 습 니 다.다음은 하나의 예 를 들 어 분석 한 텍스트 데 이 터 는 로 이 터 가 제공 한 뉴스 데이터 이다.데이터 세트 를 다운로드 한 후 "src / test / input" 디 렉 터 리 에 놓 습 니 다.데이터 세트 다운로드 주소:http://www.daviddlewis.com/resources/testcollections/reuters21578/
1. 로 이 터 의 데 이 터 를 압축 해제 하고 Mahout 은 전문 적 인 방법 을 제공 합 니 다.
File inputFolder = new File("src/test/input"); 
File outputFolder = new File("src/test/input-extracted"); 
ExtractReuters extractor = new ExtractReuters(inputFolder, outputFolder); 
extractor.extract(); 

2. 데 이 터 를 SequenceFile 로 저장
mahout 는 seqdirectory 방법 으로 문자 텍스트 를 SequenceFile 로 직접 변환 할 수 있 습 니 다. bin / mahout seqdirectory - h 를 직접 사용 할 수 있 습 니 다. 이 명령 의 도움말 을 확인 하고 입력 과 출력 파 라 메 터 를 설정 합 니 다. 여기 의 입력 은 바로 이전 단계 에서 추출 한 텍스트 로 디 렉 터 리 는 "src / test / input - extracted" 에 있 습 니 다.
3. SequenceFile 파일 의 데 이 터 를 Lucene 의 도 구 를 바탕 으로 계량 화 합 니 다.
mahout 는 seq2sparse 명령 을 직접 제공 하여 방향 을 바 꿀 수 있 습 니 다. bin / mahout seq2sparse - h 를 직접 제공 하여 이 명령 의 도움 을 확인 하고 두 번 째 출력 으로 입력 할 수 있 습 니 다.
생 성 된 양 적 파일 의 디 렉 터 리 구 조 는 다음 과 같 습 니 다.
  • df - count 디 렉 터 리: 텍스트 의 주파수 정보 저장
  • tf - vectors 디 렉 터 리: TF 를 가중치 로 하 는 텍스트 벡터 저장
  • tfidf - vectors 디 렉 터 리: TFIDF 를 가중치 로 하 는 텍스트 벡터 저장
  • tokenized - documents 디 렉 터 리: 단어 가 저 장 된 텍스트 정보
  • wordcount 디 렉 터 리: 전역 적 인 어휘 가 나타 나 는 횟수 를 저장 합 니 다
  • dictionary. file - 0 디 렉 터 리: 이 텍스트 들 이 저 장 된 어휘 표
  • frequcenc - file - 0 디 렉 터 리: 어휘 표 에 대응 하 는 주파수 정 보 를 저장 합 니 다.

  • mahout kmeans 로 집합 하여 tf - vectors 디 렉 터 리 에 있 는 파일 을 입력 하 십시오. 전체 과정 이 맞다 면 출력 결과 디 렉 터 리 clusters - N 을 볼 수 있 습 니 다.
    마지막 으로 mahout 가 제공 한 결 과 를 통 해 명령 mahout clusterdump 를 보고 집합 결 과 를 분석 할 수 있 습 니 다.

    좋은 웹페이지 즐겨찾기