ictclas 를 이용 하여 뉴스 키워드 추출
이 글 은 그 글 을 바탕 으로 ictclas 가 win 64 비트 아래 에 있 는 설정 과 UTF - 8 의 난 장 판 문 제 를 어떻게 해결 하 는 지 소개 합 니 다.
1. 먼저 그 작가 의 파일 을 다운로드 하여 프로젝트 에 가 져 옵 니 다.
가다http://ictclas.nlpir.org/downloads 64 비트 JNI 다운로드:
3. 다운로드 한 파일 로 원래 프로젝트 의 파일 을 교체 합 니 다.
위 에 다운 받 은 거 예요.
위 두 개 는 바 뀌 기 를 기다 리 고 있 습 니 다.
4. 프로젝트 텍스트 인 코딩 방식 을 utf - 8 로 변경 합 니 다.
5. 자신 이 utf - 8 형식 파일 을 읽 는 방식 으로 프로젝트 의 NLPIR 을 사용 하지 마 십시오.GetFileKeyWords () 함수
모든 코드 는 다음 과 같 습 니 다:
import kevin.zhang.NLPIR;
import java.util.*;
import java.io.*;
public class TestNLPIR {
public static void main(String[] args) throws Exception{
String filePath = "./test/test-utf8.TXT";
String tt=new String();
try{
BufferedReader in = new BufferedReader(new InputStreamReader(new FileInputStream(filePath), "UTF8"));
String str;
while ((str = in.readLine()) != null) {
tt+=str;
}
test(tt);
}
catch (Exception ex){
}
}
public static void test(String sInput){
try{
System.out.println(sInput);
NLPIR testNLPIR = new NLPIR();
String argu = "./file/";
System.out.println("NLPIR_Init");
if (testNLPIR.NLPIR_Init(argu.getBytes("GB2312"),0) == false){
System.out.println("Init Fail!");
return;
}
byte nativeBytes[]=testNLPIR.NLPIR_GetKeyWords(sInput.getBytes("GB2312"), 20, true);
String nativeStr = new String(nativeBytes, 0, nativeBytes.length, "GB2312");
String outline[] = new String[50];
outline = nativeStr.split(" ", -1);
System.out.println(" :");
for(int i=0;i<outline.length;i++){
String newoutline[] = new String[3];
newoutline=outline[i].split("/",-1);
System.out.println(newoutline[0]+","+newoutline[2]);
}
testNLPIR.NLPIR_Exit();
}
catch (Exception ex){
}
}
}
앞에서 FudanNLP 로 키 워드 를 추출 하 는 방법 에 대해 언급 했 지만 팀장 님 이 마음 에 들 지 않 아 ictclas 로 바 꿀 수 밖 에 없 었 습 니 다. 이제 더 이상 괴 롭 히 지 않 았 으 면 좋 겠 습 니 다.
이 내용에 흥미가 있습니까?
현재 기사가 여러분의 문제를 해결하지 못하는 경우 AI 엔진은 머신러닝 분석(스마트 모델이 방금 만들어져 부정확한 경우가 있을 수 있음)을 통해 가장 유사한 기사를 추천합니다:
ictclas 를 이용 하여 뉴스 키워드 추출!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">...
텍스트를 자유롭게 공유하거나 복사할 수 있습니다.하지만 이 문서의 URL은 참조 URL로 남겨 두십시오.
CC BY-SA 2.5, CC BY-SA 3.0 및 CC BY-SA 4.0에 따라 라이센스가 부여됩니다.