Java POI 워드 파일 읽 기

5279 단어 Java POI
Apache POI 는 Apache 소프트웨어 재단 의 오픈 소스 라 이브 러 리 로 POI 는 자바 프로그램 이 Microsoft Office 형식 파일 을 읽 고 쓰 는 기능 을 제공 합 니 다.
1. 워드 2003 및 워드 2007 에 필요 한 jar 패키지 읽 기
2003 버 전 (. doc) 의 워드 파일 을 읽 는 것 은 상대 적 으로 간단 합 니 다. poi - 3.5 - beta 6 - 20090622. jar 와 poi - scratchpad - 3.5 - beta 6 - 20090622. jar 두 개의 jar 가방 만 있 으 면 됩 니 다. 2007 버 전 (. docx) 은 번 거 롭 습 니 다. 제 가 말 하 는 이 번 거 로 움 은 우리 가 코드 를 쓸 때 번 거 로 운 것 이 아니 라 가 져 올 jar 가방 이 비교적 많 습 니 다. 다음 과 같은 7 가지 가 있 습 니 다. 1. openxml4j-bin-beta.jar 2. poi-3.5-beta6-20090622.jar 3. poi-ooxml-3.5-beta6-20090622.jar 4 .dom4j-1.6.1.jar 5. geronimo-stax-api_1.0_spec-1.0.jar 6. ooxml-schemas-1.0.jar 7. xmlbeans - 2.3.0. jar 중 4 - 7 은 poi - ooxml - 3.5 - beta 6 - 20090622. jar 가 의존 하 는 jar 가방 (poi - bin - 3.5 - beta 6 - 20090622. tar. gz 에 있 는 ooxml - lib 디 렉 터 리 에서 찾 을 수 있 습 니 다.
2. 줄 바 꿈 기호
하 드 줄 바 꾸 기: 파일 에서 줄 바 꾸 기, 키보드 에서 'enter' 줄 바 꾸 기 를 사용 했다 면.
소프트 줄 바 꾸 기: 파일 의 한 줄 의 문자 수 용량 이 제한 되 어 있 습 니 다. 문자 수가 일정 치 를 초과 하면 자동 으로 다음 줄 로 자 릅 니 다.
프로그램 에 있어 서 하 드 줄 바 꿈 이 야 말로 식별 할 수 있 고 확실한 줄 바 꿈 이 며, 소프트 줄 바 꿈 은 글꼴 크기, 들 여 쓰기 와 관련 이 있다.
3. 읽 는 주의사항
주의해 야 할 것 은: POI 는 워드 파일 의 그림 정 보 를 읽 지 않 습 니 다. 그리고 2007 버 전의 워드 (. docx) 에 대해 워드 파일 에 표 가 있 으 면 모든 표 의 데 이 터 는 읽 은 문자열 의 마지막 에 있 습 니 다.
4. 워드 텍스트 내용 코드 읽 기
 1 import java.io.File;
 2 import java.io.FileInputStream;
 3 import java.io.InputStream;
 4 
 5 import org.apache.poi.POIXMLDocument;
 6 import org.apache.poi.POIXMLTextExtractor;
 7 import org.apache.poi.hwpf.extractor.WordExtractor;
 8 import org.apache.poi.openxml4j.opc.OPCPackage;
 9 import org.apache.poi.xwpf.extractor.XWPFWordExtractor;
10 
11 public class Test {
12     public static void main(String[] args) {
13         try {
14             InputStream is = new FileInputStream(new File("2003.doc"));
15             WordExtractor ex = new WordExtractor(is);
16             String text2003 = ex.getText();
17             System.out.println(text2003);
18 
19             OPCPackage opcPackage = POIXMLDocument.openPackage("2007.docx");
20             POIXMLTextExtractor extractor = new XWPFWordExtractor(opcPackage);
21             String text2007 = extractor.getText();
22             System.out.println(text2007);
23             
24         } catch (Exception e) {
25             e.printStackTrace();
26         }
27     }
28 }

 
다음으로 이동: http://blog.csdn.net/hemingwang0902/article/details/4381598

좋은 웹페이지 즐겨찾기