[학습 파일] 워드 문 서 를 XML 형식 으로 변환 합 니 다.

1989 단어 자바xml
------------------------------------------2013.7.26------------------------------------------
지면 에 가 까 운 대기 온 도 는 31 ° C 이 고 날 씨 는 맑다.
어제 자바 에 jacob 소스 라 이브 러 리 가 있 는 것 을 알 게 되 었 습 니 다. 워드 를 html 형식 으로 변환 할 수 있 습 니 다.
[추측] 워드 의 도표 정 보 는 html 에서 비슷 한 table 등 태그 로 저장 합 니 다.
정확 한 추측 이 나 오 면 html 문서 에서 유효한 정 보 를 분석 하고 정 해진 형식의 xml 문 서 를 생 성 할 수 있 습 니 다.
[오후 작업]
오전의 추측 은 완전히 정확 하 다.
jacob 에 관 한 자 료 를 탐색 한 후에 jacob 라 이브 러 리 를 성공 적 으로 인용 하여 표를 포함 하 는 워드 문 서 를 html 및 txt 형식 으로 바 꾸 었 습 니 다.
특히 ID = 가 한 현장 글 의 자료 에 감 사 드 립 니 다.
참고 자료: jacob 는 Office Word 파일 형식 변환 을 실현 합 니 다.:http://blog.csdn.net/laoyaotask/article/details/9391435
원본 워드 문 서 를 읽 을 수 없 는 문제 가 발생 했 습 니 다. 이 원본 파일 이 읽 기 전용 형식 으로 인해 발생 했 습 니 다. 변경 후 문제 가 해결 되 었 습 니 다.
[다음 계획]
html 문서 로 전 환 된 것 도 단순 한 텍스트 일 뿐 태그 가 존재 하지 않 기 때문에 비교 한 후에 txt 형식의 문 서 를 자연 언어 처리 (NLP) 로 직접 사용 하여 데 이 터 를 발굴 하기 로 결정 했다.
------------------------------------------2013.7.31------------------------------------------
지면 에 가 까 운 대기의 온 도 는 29 ° C 이 고 날 씨 는 맑 으 며 약간 미세 먼지 가 있다.
내일 은 집 으로 돌아 가 는 여정 에 오 르 게 되 었 습 니 다. 조금 즐 거 웠 습 니 다. 표를 찾다 가 작은 우여곡절 을 겪 었 지만.
[아이디어] 오늘 대량 전환 을 실현 할 수 있 기 를 바 랍 니 다. 자바 를 계속 사용 하여 실현 하려 고 합 니 다. 주로 이전의 코드 조합 을 편리 하 게 하기 위해 서 입 니 다.
[오전 작업]
오늘 의 생각 을 이 루 었 다.지정 한 디 렉 터 리 에 있 는 모든 워드 문 서 를 txt 문서 로 일괄 변환 합 니 다.
자바 의 파일 호출 방법 에 대해 알 아 봤 습 니 다.
//            ,             .doc  
File file.getName().toString().endWith(.doc);

//             
File file.isDirectory();

//              【.listFile()】
File[] files = path.listFiles(new FileFilter()

참고 자료 출처:
자바 디 렉 터 리 에 있 는 모든 접미사 이름 이 자바 인 파일 을 옮 겨 다 니 기:http://zhidao.baidu.com/question/229445883.html
자바 FileFilter 필 터 는 폴 더 와. xls 파일 만 저장 합 니 다:http://zhidao.baidu.com/question/538907121.html
[다음 계획]
사실은 26 호의 [다음 계획] 이지 만 xml 로 전환 하 는 방법 은 초기 에 정규 표현 식 으로 바 뀔 것 입 니 다.
- - - - 학습 계획 이 변경 되 었 기 때문에 이 프로젝트 는 잠시 중단 되 었 습 니 다. 2014.3.7 - - -

좋은 웹페이지 즐겨찾기