직접 CSDN 블 로그 추출 기 소스 분석 중 하나: 웹 페이지 를 처리 하여 txt 파일 로 저장 합 니 다.
3766 단어 소스 코드 분석
다음은 캡 처 된 웹 페이지 를 정규 표현 식 으로 처리 하여 텍스트 를 남기 고 txt 파일 로 저장 합 니 다.이 코드 는 매우 간단 하 니 모두 가 알 아 볼 수 있 을 거 라 고 믿 습 니 다.
/**
*
*/
package com.wyp.html2txt;
import java.io.BufferedWriter;
import java.io.File;
import java.io.FileWriter;
import java.io.IOException;
/**
* @author w397090770
* Create Data: 2012-7-18
* Email: [email protected]
*
* , , 。
* ,
*/
public class saveAsTXT {
public void html2txt(File file, String str, String title){
// <script>(.*?)</script>
//str = str.replaceAll("<[Ss][Cc][Rr][Ii][Pp][Tt].*?>.*?<[/]?[Ss][Cc][Rr][Ii][Pp][Tt]>", "####");
//str = str.replaceAll("<\\b(\\w+)[\\s\\w>\"/\'=:;.]+</\\1>", "####");
str = str.replaceAll("<\\b(\\w+)[\\s\\w>\"/'=&:_;.]+</\\1>", "####");
// <br/>
str = str.replaceAll("<[\\s]*[Bb][Rr][\\s]*[/]?[\\s]*>", System.getProperty("line.separator"));
//<p>
str = str.replaceAll("<[\\s]*[/]*[Pp].*?>", System.getProperty("line.separator"));
// HTML
str = str.replaceAll("<[\\s]*[/]?[a-zA-Z]*.*?>", "");
// , ,
str = str.replaceAll("", " ");
str = str.replaceAll("", " ");
// > <
str = str.replaceAll(">", ">");
str = str.replaceAll("<", "<");
// &
str = str.replaceAll("&", "&");
//
str = str.replaceAll(" ", " ");
//
str = str.replaceAll(" ", " ");
//
str = str.replaceAll(""", "\"");
//
str = str.replaceAll("©", "");
//
str = str.replaceAll("©", "");
//
str = str.replaceAll("×", "×");
//
str = str.replaceAll("÷", "÷");
//
str = str.replaceAll("+", "+");
// CSDN , ,
str = str.replaceAll(" ", " ");
//
File saveFileName = new File(file.getAbsolutePath() + File.separator + title + ".txt");
if(!saveFileName.exists()){ //
try {
saveFileName.createNewFile();
} catch (IOException e1) {
// TODO Auto-generated catch block
e1.printStackTrace();
return;
}
BufferedWriter bw = null;
try { //
bw = new BufferedWriter(new FileWriter(saveFileName.getAbsolutePath(), false));
bw.write(str);
bw.newLine();
} catch (IOException e) {
// TODO Auto-generated catch block
e.printStackTrace();
} finally {
try {
bw.flush();
bw.close();
} catch (IOException e) {
// TODO Auto-generated catch block
e.printStackTrace();
}
}
}
}
}
이상 은 캡 처 된 웹 페이지 를 정규 표현 식 으로 일치 시 키 고 모든 웹 탭 을 제거 하 며 일반 텍스트 의 데이터 만 남 긴 다음 txt 파일 로 저장 할 수 있 습 니 다. 물론 그림 은 txt 에 저장 할 수 없 기 때문에 그림 을 처리 할 때 정규 표현 식 으로 간단하게 지 울 수 있 습 니 다.
이 내용에 흥미가 있습니까?
현재 기사가 여러분의 문제를 해결하지 못하는 경우 AI 엔진은 머신러닝 분석(스마트 모델이 방금 만들어져 부정확한 경우가 있을 수 있음)을 통해 가장 유사한 기사를 추천합니다:
자바 클래스 상용 방법 분석Class 클래스 는 자바 에서 클래스 정 보 를 저장 하 는 인 스 턴 스 입 니 다.그 안에 각종 반사 방법 이 있 는데 이미 가지 고 있 는 정 보 를 파악 하고 그것 을 익히 면 우리 의 일상적인 반사 프로 ...
텍스트를 자유롭게 공유하거나 복사할 수 있습니다.하지만 이 문서의 URL은 참조 URL로 남겨 두십시오.
CC BY-SA 2.5, CC BY-SA 3.0 및 CC BY-SA 4.0에 따라 라이센스가 부여됩니다.