PDF 텍스트 콘텐츠를 추출하는 Java

7276 단어 txt자바PDFfree
일상 작업에서는 거대한 PDF 문서에 포함된 텍스트 내용을 추출해야 할 수 있습니다. 그리고 Free Spire.PDF for Java는 편리하고 빠른 텍스트 추출 방법을 제공합니다.다음에 프로세스에서 사용되는 Java 코드를 소개합니다.

기본 절차:
1. Free Spire.PDF for Java 패키지를 다운로드하고 압축을 풉니 다.
2. lib 폴더의 Spire.Pdf.jar 패키지를 종속성으로 Java 응용 프로그램으로 가져오거나 Maven 저장소에서 JAR 패키지를 설치합니다(pom.xml 파일을 구성하는 코드는 아래 참조). .
3. Java 응용프로그램에서 새 Java 클래스(여기서는 ExtractText라는 이름)를 작성하고 해당 Java 코드를 입력하여 실행하십시오.

pom.xml 파일을 구성합니다.
<repositories>
   <repository>
      <id>com.e-iceblue</id>
      <name>e-iceblue</name>
      <url>http://repo.e-iceblue.com/nexus/content/groups/public/</url>
   </repository>
</repositories>
<dependencies>
   <dependency>
      <groupId>e-iceblue</groupId>
      <artifactId>spire.pdf.free</artifactId>
      <version>2.6.3</version>
   </dependency>
</dependencies>

PDF 소스 문서는 다음과 같습니다.


Java 코드:

import com.spire.pdf.PdfDocument;
import com.spire.pdf.PdfPageBase;
import java.io.*;

public class ExtractText {

    public static void main(String[] args) {

        //PdfDocumentインスタンスを作成する
        PdfDocument doc = new PdfDocument();
        //PDFファイルをロード
        doc.loadFromFile("雪.pdf");

        //StringBuilderインスタンスを作成する
        StringBuilder sb = new StringBuilder();

        PdfPageBase page;
        //PDFページをトラバースし、各ページのテキストを取得して、StringBuilderオブジェクトに追加します
        for(int i= 0;i<doc.getPages().getCount();i++){
            page = doc.getPages().get(i);
            sb.append(page.extractText(true));
        }
        FileWriter writer;
        try {
            //StringBuilderオブジェクトのテキストをテキストファイルに書き込みます
            writer = new FileWriter("ExtractText.txt");
            writer.write(sb.toString());
            writer.flush();
        } catch (IOException e) {
            e.printStackTrace();
        }

        doc.close();
    }
}

결과 추출:

좋은 웹페이지 즐겨찾기