HtmlParser 에서 웹 페이지 의 일반 텍스트 정 보 를 추출 합 니 다.
검색 기술 을 배 우려 고 인터넷 파충류 지식 을 배 웠 다.최근 에는 웹 페이지 의 순수한 텍스트 정 보 를 어떻게 추출 하 는 지 에 대해 곤 혹 스 러 워 하고 있다.정규 표현 식 을 사용 하려 면 여러 가지 요 소 를 고려 해 야 하고 라벨 도 너무 많아 서 편리 하지 않 고 효과 도 좋 지 않 습 니 다.오픈 소스 백 을 이용 하려 고 하 다가 Html Parser 를 선 택 했 습 니 다.
인터넷 에서 HtmlParser 를 이용 하여 페이지 정 보 를 추출 하 는 방법 을 검색 합 니 다.추출 결과 가 모두 이상 적 이지 않 고 쓸모없는 빈 칸 정보 가 많이 포함 되 어 있 으 며 JS 코드 도 많다.
다음 코드 를 이용 하면:
public void getWebPageContent(String htmlContent) {
Parser parser = new Parser();
try {
parser.setInputHTML(htmlContent);
parser.setEncoding(parser.getURL());
HtmlPage page = new HtmlPage(parser);
parser.visitAllNodesWith(page);
logger.info(page.getTitle());
NodeList list = page.getBody();
StringBuffer sb = new StringBuffer();
for (NodeIterator iterator = list.elements(); iterator
.hasMoreNodes();) {
Node node = iterator.nextNode();
logger.info(node.toPlainTextString());
} catch (ParserException e) {
// TODO Auto-generated catch block
e.printStackTrace();
}
}
빈 칸 정보 와 JS 코드 가 많이 포함 되 어 있 습 니 다.
[b]
나중에 HTML Parser 의 API 에서 org. htmlparser. beans. StringBean 류 에 대한 설명 에서 다음 과 같은 문 자 를 찾 았 습 니 다: [/ b]
Extract strings from a URL.
Text within tags is removed.
The text within tags is not altered.
The property Strings, which is the output property is null until a URL is set. So a typical usage is:
StringBean sb = new StringBean ();
sb.setLinks (false);
sb.setReplaceNonBreakingSpaces (true);
sb.setCollapse (true);
sb.setURL ("http://www.netbeans.org"); // the HTTP is performed here
String s = sb.getStrings ();
이용 후 다음 과 같다.
/**
* URL, URL
* @param url URL
* @return RL
* @throws ParserException
*/
public String getText(String url)throws ParserException{
StringBean sb = new StringBean();
//
sb.setLinks(false);
//
sb.setReplaceNonBreakingSpaces(true);
//
sb.setCollapse(true);
// URL
sb.setURL(url);
//
return sb.getStrings();
}
[b] 웹 페이지 의 일반 텍스트 정 보 를 분석 할 수 있 고 효과 가 좋 습 니 다 [/ b]
ps: 정 보 를 너무 못 검색 해 요. API 에 이런 방법 이 있어 요. 찾 지 못 했 어 요.
이 내용에 흥미가 있습니까?
현재 기사가 여러분의 문제를 해결하지 못하는 경우 AI 엔진은 머신러닝 분석(스마트 모델이 방금 만들어져 부정확한 경우가 있을 수 있음)을 통해 가장 유사한 기사를 추천합니다:
[Elasticsearch] 제어 상관도 (5) - function_score 조회 및 field_value_factor,boost_mode,max_mode 매개 변수function_score 조회는 점수 계산 과정을 처리하는 궁극적인 도구입니다.메인 검색에 일치하는 모든 문서에 함수를 호출하여 원래의 _를 완전히 바꿀 수 있습니다score. 각 문서에 대한 간단한 승급이 적용되...
텍스트를 자유롭게 공유하거나 복사할 수 있습니다.하지만 이 문서의 URL은 참조 URL로 남겨 두십시오.
CC BY-SA 2.5, CC BY-SA 3.0 및 CC BY-SA 4.0에 따라 라이센스가 부여됩니다.