자바 프로 세 스 디자인-문서 유사 성 검사 시스템-문서 출력 문자열 류

2606 단어 코드직업 생활
문서 의 유사 성 을 비교 하면 먼저 txt,doc,pdf 형식의 문 서 를 버퍼 에 출력 합 니 다.문서 출력 문자열 클래스
과제 에 근거 하 다 문서 유사 성 검사 시스템(작업 검사 중)   
txt 출력 이 비교적 쉽 고 doc 를 실현 하려 면 poi 컨트롤 을 사용 해 야 합 니 다.방법 은 itext,pdf 형식 으로 pdfbox 를 사용 할 수 있 습 니 다. 
/*
 *             。doc、txt、pdf    
 *      
 */
import java.io.*;
import org.pdfbox.pdmodel.PDDocument;
import org.textmining.text.extraction.WordExtractor;
import org.pdfbox.pdfparser.PDFParser;
import org.pdfbox.util.PDFTextStripper;


public class wordortxt {

	public static String readDoc(String docFilePath) throws Exception {   //doc    
		//        doc  
		File f1 = new File(docFilePath);
		FileInputStream in = new FileInputStream(f1);
		WordExtractor extractor = null;
		String text = null;
		//   WordExtractor 
		extractor = new WordExtractor();
		//  doc      
		text = extractor.extractText(in);
		return text;
	}

	public static String readtxt(String txtFilePath) throws Exception {		//txt    
		File f = new File(txtFilePath);
		FileInputStream inputstream = new FileInputStream(f);
		StringBuffer buffer = new StringBuffer();
		String line; 												//            
		InputStreamReader in=new InputStreamReader(inputstream);
		BufferedReader bufferreader = new BufferedReader(in);
		line = bufferreader.readLine(); 								//      
		while (line != null) { 											//    line        
			buffer.append(line); 										//           buffer  
			buffer.append("
"); // line = bufferreader.readLine(); // } // buffer inputstream.close(); String filetext = buffer.toString(); //inputstream.getEncoding() //filetext return filetext; //System.out.print(filetext); //System.out.print(in.getEncoding());*/ } public static String readPDF (String PDFFilePath) { //PDF String resultPDF = null; FileInputStream is = null; PDDocument document = null; try{ is = new FileInputStream(PDFFilePath); PDFParser p = new PDFParser(is); // PDF p.parse(); // PDF document = p.getPDDocument(); // PDF PDFTextStripper stripper = new PDFTextStripper(); // PDF resultPDF = stripper.getText(document); } catch (FileNotFoundException e){ e.printStackTrace(); } catch (IOException e ){ e.printStackTrace(); } finally { if (is != null){ try { is.close(); }catch (IOException e){ e.printStackTrace(); } } if (document != null){ try { document.close(); }catch (IOException e){ e.printStackTrace(); } } } return resultPDF; } }

좋은 웹페이지 즐겨찾기