인터넷 파충류 사례 분석
3095 단어 인터넷 파충류
인터넷 파충류 의 기본 작업 절 차 는 다음 과 같다.
1.먼저 정 성 스 럽 게 고 른 피 드 URL 을 선택한다.
2.캡 처 할 URL 대기 열 에 이 URL 을 넣 기;
3.캡 처 할 URL 대기 열 에서 캡 처 할 URL 을 추출 하고 DNS 를 분석 하 며 호스트 의 ip 를 얻 고 URL 에 해당 하 는 웹 페이지 를 다운로드 하여 다운로드 한 웹 라 이브 러 리 에 저장 합 니 다.또한 이 URL 들 을 캡 처 된 URL 대기 열 에 넣 습 니 다.
4.캡 처 된 URL 큐 의 URL 을 분석 하고 다른 URL 을 분석 하 며 캡 처 할 URL 큐 에 URL 을 넣 고 다음 순환 에 들 어 갑 니 다.
물론,위 에서 말 한 것들 을 나 는 모두 이해 하지 못 한다.나의 현재 이해 로 는,우 리 는 인터넷 주 소 를 요청 하고,서버 는 우리 에 게 슈퍼 큰 텍스트 를 되 돌려 주 며,우리 의 브 라 우 저 는 이 슈퍼 큰 텍스트 를 우리 가 보 았 다 고 말 하 는 화려 한 페이지 로 해석 할 수 있다.
그렇다면 우 리 는 이 초대형 텍스트 를 충분 한 String 으로 보기 만 하면 된다. 문자열 은 OK 입 니 다.
다음은 제 코드 입 니 다.
package main.spider;
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;
import java.io.IOException;
/**
* Created by 1755790963 on 2017/3/10.
*/
public class Second {
public static void main(String[] args) throws IOException {
System.out.println("begin");
Document document = Jsoup.connect("http://tieba.baidu.com/p/2356694991").get();
String selector="div[class=d_post_content j_d_post_content clearfix]";
Elements elements = document.select(selector);
for (Element element:elements){
String word= element.text();
if(word.indexOf("@")>0){
word=word.substring(0,word.lastIndexOf("@")+7);
System.out.println(word);
}
System.out.println(word);
}
}
}
저 는 여기 서 apache 회사 가 제공 하 는 jsoup 을 사 용 했 습 니 다. jar 패키지,jsoup 는 자바 의 HTML 해상도 기 로 URL 주소,HTML 텍스트 내용 을 직접 분석 할 수 있 습 니 다.그것 은 DOM,CSS 및 jQuery 와 유사 한 조작 방법 으로 데 이 터 를 추출 하고 조작 할 수 있 는 매우 편리 한 API 를 제공 합 니 다.코드 에서 저 희 는 Jsoup 류 를 직접 사용 하고 Jsoup 의 connect()방법 을 내 보 낼 수 있 습 니 다.이 방법 은 org.jsoup.Connection 대상 을 되 돌려 줍 니 다.매개 변 수 는 사이트 의 url 주소 이 고 Connection 대상 은 get()방법 으로 Document 대상 을 되 돌려 줍 니 다.
document 대상 의 select 방법 은 Elements 대상 을 되 돌려 줄 수 있 습 니 다.Elements 대상 은 정식 Element 대상 의 집합 이지 만 select()방법 은 String 인 자 를 입력 해 야 합 니 다.이 인 자 는 우리 의 선택 기 입 니 다.
String selector="div[class=d_post_content j_d_post_content clearfix]";
우리 의 선택 기 문법 은 jquery 의 선택 기 문법 과 유사 합 니 다.html 페이지 의 요 소 를 선택 할 수 있 습 니 다.선택 한 후에 Elements 집합 을 편리 하 게 하고 Element 의 text()방법 으로 html 의 코드 를 얻 을 수 있 습 니 다.이렇게 해서 가장 간단 한 인터넷 파충류 가 다 썼 다.
내 가 선택 한 인터넷 주 소 는 콩짜개 망 이 니,너의 메 일 을 남 겨 라.나 는 너 에 게 메 일 을 보 낼 것 이다. 이렇게 바 이 두 스티커 를 붙 여 주세요.제 가 벗 긴 것 은 모든 사람의 메 일 주소 입 니 다.
결과 첨부:
이상 은 본 고의 모든 내용 입 니 다.본 고의 내용 이 여러분 의 학습 이나 업무 에 어느 정도 도움 이 되 기 를 바 랍 니 다.또한 저 희 를 많이 지지 해 주시 기 바 랍 니 다!
이 내용에 흥미가 있습니까?
현재 기사가 여러분의 문제를 해결하지 못하는 경우 AI 엔진은 머신러닝 분석(스마트 모델이 방금 만들어져 부정확한 경우가 있을 수 있음)을 통해 가장 유사한 기사를 추천합니다:
MinerStoreThread. java 저장 스 레 드MinerStoreThread. java 저장 스 레 드 반환 목록...
텍스트를 자유롭게 공유하거나 복사할 수 있습니다.하지만 이 문서의 URL은 참조 URL로 남겨 두십시오.
CC BY-SA 2.5, CC BY-SA 3.0 및 CC BY-SA 4.0에 따라 라이센스가 부여됩니다.