ictclas 를 이용 하여 뉴스 키워드 추출

http://cjp1989.iteye.com/blog/1856613 이 글 은 ictclas 가 win 32 비트 아래 에 있 는 설정 을 소개 하 였 으 며, 그의 소스 코드 를 다운로드 하 였 으 며, 그 엔 지 니 어 는 직접 실행 할 수 있 습 니 다.
이 글 은 그 글 을 바탕 으로 ictclas 가 win 64 비트 아래 에 있 는 설정 과 UTF - 8 의 난 장 판 문 제 를 어떻게 해결 하 는 지 소개 합 니 다.
1. 먼저 그 작가 의 파일 을 다운로드 하여 프로젝트 에 가 져 옵 니 다. 
利用ictclas进行新闻关键词提取_第1张图片
가다http://ictclas.nlpir.org/downloads 64 비트 JNI 다운로드:
利用ictclas进行新闻关键词提取_第2张图片
3. 다운로드 한 파일 로 원래 프로젝트 의 파일 을 교체 합 니 다.
利用ictclas进行新闻关键词提取_第3张图片
위 에 다운 받 은 거 예요.
利用ictclas进行新闻关键词提取_第4张图片 利用ictclas进行新闻关键词提取_第5张图片
위 두 개 는 바 뀌 기 를 기다 리 고 있 습 니 다.
4. 프로젝트 텍스트 인 코딩 방식 을 utf - 8 로 변경 합 니 다.
利用ictclas进行新闻关键词提取_第6张图片
5. 자신 이 utf - 8 형식 파일 을 읽 는 방식 으로 프로젝트 의 NLPIR 을 사용 하지 마 십시오.GetFileKeyWords () 함수
모든 코드 는 다음 과 같 습 니 다:
import kevin.zhang.NLPIR;

import java.util.*;
import java.io.*;
public class TestNLPIR {
	public static void main(String[] args) throws Exception{
		String filePath = "./test/test-utf8.TXT";
		String tt=new String();
		try{
           BufferedReader in = new BufferedReader(new InputStreamReader(new FileInputStream(filePath), "UTF8"));
		    String str;
		    while ((str = in.readLine()) != null) {
		    	tt+=str;
		    }
		    test(tt);
		}
		catch (Exception ex){
		} 
	}
	public static void test(String sInput){
		try{
			System.out.println(sInput);
			NLPIR testNLPIR = new NLPIR();
			String argu = "./file/";
			System.out.println("NLPIR_Init");
			if (testNLPIR.NLPIR_Init(argu.getBytes("GB2312"),0) == false){
				System.out.println("Init Fail!");
				return;
			}
			byte nativeBytes[]=testNLPIR.NLPIR_GetKeyWords(sInput.getBytes("GB2312"), 20, true);
			String nativeStr = new String(nativeBytes, 0, nativeBytes.length, "GB2312");
			String outline[] = new String[50];
			outline = nativeStr.split("  ", -1);
			System.out.println("        :");
			for(int i=0;i<outline.length;i++){
				String newoutline[] = new String[3];
				newoutline=outline[i].split("/",-1);
				System.out.println(newoutline[0]+","+newoutline[2]);
			}				
			testNLPIR.NLPIR_Exit();
		}
		catch (Exception ex){
		} 
	}
}
 

앞에서 FudanNLP 로 키 워드 를 추출 하 는 방법 에 대해 언급 했 지만 팀장 님 이 마음 에 들 지 않 아 ictclas 로 바 꿀 수 밖 에 없 었 습 니 다. 이제 더 이상 괴 롭 히 지 않 았 으 면 좋 겠 습 니 다.

좋은 웹페이지 즐겨찾기