HtmlParser 에서 웹 페이지 의 일반 텍스트 정 보 를 추출 합 니 다.

2614 단어 SearchEngine
HTML Parser 는 웹 페이지 를 분석 하 는 소스 라 이브 러 리 입 니 다.
검색 기술 을 배 우려 고 인터넷 파충류 지식 을 배 웠 다.최근 에는 웹 페이지 의 순수한 텍스트 정 보 를 어떻게 추출 하 는 지 에 대해 곤 혹 스 러 워 하고 있다.정규 표현 식 을 사용 하려 면 여러 가지 요 소 를 고려 해 야 하고 라벨 도 너무 많아 서 편리 하지 않 고 효과 도 좋 지 않 습 니 다.오픈 소스 백 을 이용 하려 고 하 다가 Html Parser 를 선 택 했 습 니 다.
인터넷 에서 HtmlParser 를 이용 하여 페이지 정 보 를 추출 하 는 방법 을 검색 합 니 다.추출 결과 가 모두 이상 적 이지 않 고 쓸모없는 빈 칸 정보 가 많이 포함 되 어 있 으 며 JS 코드 도 많다.
다음 코드 를 이용 하면:

public void getWebPageContent(String htmlContent) {

Parser parser = new Parser();
try {
parser.setInputHTML(htmlContent);
parser.setEncoding(parser.getURL());
HtmlPage page = new HtmlPage(parser);
parser.visitAllNodesWith(page);

logger.info(page.getTitle());

NodeList list = page.getBody();

StringBuffer sb = new StringBuffer();
for (NodeIterator iterator = list.elements(); iterator
.hasMoreNodes();) {
Node node = iterator.nextNode();
logger.info(node.toPlainTextString());

} catch (ParserException e) {
// TODO Auto-generated catch block
e.printStackTrace();
}
}


빈 칸 정보 와 JS 코드 가 많이 포함 되 어 있 습 니 다.
[b]
나중에 HTML Parser 의 API 에서 org. htmlparser. beans. StringBean 류 에 대한 설명 에서 다음 과 같은 문 자 를 찾 았 습 니 다: [/ b]

Extract strings from a URL.

Text within tags is removed.

The text within
 tags is not altered.

The property Strings, which is the output property is null until a URL is set. So a typical usage is:

StringBean sb = new StringBean ();
sb.setLinks (false);
sb.setReplaceNonBreakingSpaces (true);
sb.setCollapse (true);
sb.setURL ("http://www.netbeans.org"); // the HTTP is performed here
String s = sb.getStrings ();


이용 후 다음 과 같다.

/**
* URL, URL
* @param url URL
* @return RL
* @throws ParserException
*/
public String getText(String url)throws ParserException{
StringBean sb = new StringBean();

//
sb.setLinks(false);
//
sb.setReplaceNonBreakingSpaces(true);
//
sb.setCollapse(true);
// URL
sb.setURL(url);
//
return sb.getStrings();
}

[b] 웹 페이지 의 일반 텍스트 정 보 를 분석 할 수 있 고 효과 가 좋 습 니 다 [/ b]
ps: 정 보 를 너무 못 검색 해 요. API 에 이런 방법 이 있어 요. 찾 지 못 했 어 요.

좋은 웹페이지 즐겨찾기