PDF 텍스트 콘텐츠를 추출하는 Java
기본 절차:
1. Free Spire.PDF for Java 패키지를 다운로드하고 압축을 풉니 다.
2. lib 폴더의 Spire.Pdf.jar 패키지를 종속성으로 Java 응용 프로그램으로 가져오거나 Maven 저장소에서 JAR 패키지를 설치합니다(pom.xml 파일을 구성하는 코드는 아래 참조). .
3. Java 응용프로그램에서 새 Java 클래스(여기서는 ExtractText라는 이름)를 작성하고 해당 Java 코드를 입력하여 실행하십시오.
pom.xml 파일을 구성합니다.
<repositories>
<repository>
<id>com.e-iceblue</id>
<name>e-iceblue</name>
<url>http://repo.e-iceblue.com/nexus/content/groups/public/</url>
</repository>
</repositories>
<dependencies>
<dependency>
<groupId>e-iceblue</groupId>
<artifactId>spire.pdf.free</artifactId>
<version>2.6.3</version>
</dependency>
</dependencies>
PDF 소스 문서는 다음과 같습니다.
Java 코드:
import com.spire.pdf.PdfDocument;
import com.spire.pdf.PdfPageBase;
import java.io.*;
public class ExtractText {
public static void main(String[] args) {
//PdfDocumentインスタンスを作成する
PdfDocument doc = new PdfDocument();
//PDFファイルをロード
doc.loadFromFile("雪.pdf");
//StringBuilderインスタンスを作成する
StringBuilder sb = new StringBuilder();
PdfPageBase page;
//PDFページをトラバースし、各ページのテキストを取得して、StringBuilderオブジェクトに追加します
for(int i= 0;i<doc.getPages().getCount();i++){
page = doc.getPages().get(i);
sb.append(page.extractText(true));
}
FileWriter writer;
try {
//StringBuilderオブジェクトのテキストをテキストファイルに書き込みます
writer = new FileWriter("ExtractText.txt");
writer.write(sb.toString());
writer.flush();
} catch (IOException e) {
e.printStackTrace();
}
doc.close();
}
}
결과 추출:
Reference
이 문제에 관하여(PDF 텍스트 콘텐츠를 추출하는 Java), 우리는 이곳에서 더 많은 자료를 발견하고 링크를 클릭하여 보았다 https://qiita.com/iceblue/items/3d60f5b7cc25b3f39b41텍스트를 자유롭게 공유하거나 복사할 수 있습니다.하지만 이 문서의 URL은 참조 URL로 남겨 두십시오.
우수한 개발자 콘텐츠 발견에 전념 (Collection and Share based on the CC Protocol.)