HttpClient jsoup 에 따라 웹 페이지 분석
package jsoup;
import org.apache.http.HttpEntity;
import org.apache.http.HttpResponse;
import org.apache.http.HttpStatus;
import org.apache.http.client.HttpClient;
import org.apache.http.client.methods.HttpGet;
import org.apache.http.impl.client.DefaultHttpClient;
import org.apache.http.util.EntityUtils;
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;
/**
* HttpClient html , jsoup html
* @author Administrator
*
*/
public class JustTest {
public static void main(String[] args) {
String html = getHtmlByUrl("http://www.iteye.com/");
if (html != null && !"".equals(html)) {
Document doc = Jsoup.parse(html);
Elements linksElements = doc
.select("div#page>div#content>div#main>div.left>div#recommend>ul>li>a");
// id “page” div id “content” div id “main” div
// class “left” div id “recommend” div ul li a
for (Element ele : linksElements) {
String href = ele.attr("href");
String title = ele.text();
System.out.println(href + "," + title);
}
}
}
/**
* URL html
*
* @param url
* @return
*/
public static String getHtmlByUrl(String url) {
String html = null;
HttpClient httpClient = new DefaultHttpClient();// httpClient
HttpGet httpget = new HttpGet(url);// get URL
try {
HttpResponse responce = httpClient.execute(httpget);// responce
int resStatu = responce.getStatusLine().getStatusCode();//
if (resStatu == HttpStatus.SC_OK) {// 200
//
HttpEntity entity = responce.getEntity();
if (entity != null) {
html = EntityUtils.toString(entity);// html
System.out.println(html);
}
}
} catch (Exception e) {
System.out.println(" 【" + url + "】 !");
e.printStackTrace();
} finally {
httpClient.getConnectionManager().shutdown();
}
return html;
}
}
이 내용에 흥미가 있습니까?
현재 기사가 여러분의 문제를 해결하지 못하는 경우 AI 엔진은 머신러닝 분석(스마트 모델이 방금 만들어져 부정확한 경우가 있을 수 있음)을 통해 가장 유사한 기사를 추천합니다:
Is Eclipse IDE dying?In 2014 the Eclipse IDE is the leading development environment for Java with a market share of approximately 65%. but ac...
텍스트를 자유롭게 공유하거나 복사할 수 있습니다.하지만 이 문서의 URL은 참조 URL로 남겨 두십시오.
CC BY-SA 2.5, CC BY-SA 3.0 및 CC BY-SA 4.0에 따라 라이센스가 부여됩니다.