HttpClient에서 웹 페이지를 캡처하는 두 가지 방법

1. NodeFilter를 이용하여 웹 페이지를 분석한다. 1. Parser a를 생성한다. url을 통해 인터넷의 웹 페이지
 
Parser parser = new Parser();
parser.setURL("http://www.yahoo.com.cn");
b를 추출한다. 로컬 웹 파일을 추출하여 파일을 읽고 웹 파일을 문자열로 전환한다.
 
Parser parser=Parser.createParser(html,charset);
2. NodeFilter를 이용하여 filter a. Tag Name NodeFilter filter=new TagNameFilter("IMG");b. Tag Class NodeFilter filter = new NodeClassFilter(ImageTag.class);3. 일치 필터를 통해 모든 조건에 맞는 Tag NodeList list=parser를 얻을 수 있습니다.extractAllNodesThat(filter); for(int i=0;i String content=list.elementAt(i).toHtml();//조건에 부합되는 Tag 내용을 얻어 구체적인 상황에 대해 더욱 상세하게 처리하면
 
ImageTag imageTag=(ImageTag)list.elementAt(i);
…………
}
필요에 따라 상응하는 처리를 한다.2. Visitor를 이용하여 웹 페이지를 분석한다. 1. Parser a를 생성한다. url을 통해 인터넷의 웹 페이지
 
Parser parser = new Parser();
parser.setURL("http://www.yahoo.com.cn");
b를 추출한다. 로컬 웹 파일을 추출하고 파일을 읽고 웹 파일을 문자열로 전환한다.
 
Parser parser=Parser.createParser(html,charset);
2,visitor로 페이지에 접근
 
ex:ObjectFindingVisitor visitor=new ObjectFindingVisitor();
parser.visitAllNodesWith(visitor);
3,특정한visitor를 통해 조건에 맞는 Tag
 
Node[] nodes=visitor.getTags();
for(int i=0;i ImageTag imageTag=(ImageTag)nodes[i];
…………
//
}

좋은 웹페이지 즐겨찾기