인터넷 파충류 사례 분석

3095 단어 인터넷 파충류
인터넷 파충 류 는 일정한 규칙 에 따라 인터넷 정 보 를 자동 으로 캡 처 하 는 프로그램 이나 스 크 립 트 로 인터넷 분야 에 널리 활용 되 고 있다.검색엔진 은 인터넷 파충류 로 웹 페이지,문서,심지어 그림,오디 오,동 영상 등 자원 을 캡 처 하여 해당 하 는 색인 기술 로 이러한 정 보 를 조직 하여 검색 사용자 에 게 조회 하도록 제공한다.인터넷 파충류 도 중 소 사이트 의 홍보 에 효과 적 인 경 로 를 제공 하고 사이트 가 검색엔진 파충류 에 대한 최적화 가 한 시 대 를 풍미 했다.
인터넷 파충류 의 기본 작업 절 차 는 다음 과 같다.
1.먼저 정 성 스 럽 게 고 른 피 드 URL 을 선택한다.
2.캡 처 할 URL 대기 열 에 이 URL 을 넣 기;
3.캡 처 할 URL 대기 열 에서 캡 처 할 URL 을 추출 하고 DNS 를 분석 하 며 호스트 의 ip 를 얻 고 URL 에 해당 하 는 웹 페이지 를 다운로드 하여 다운로드 한 웹 라 이브 러 리 에 저장 합 니 다.또한 이 URL 들 을 캡 처 된 URL 대기 열 에 넣 습 니 다.
4.캡 처 된 URL 큐 의 URL 을 분석 하고 다른 URL 을 분석 하 며 캡 처 할 URL 큐 에 URL 을 넣 고 다음 순환 에 들 어 갑 니 다.
물론,위 에서 말 한 것들 을 나 는 모두 이해 하지 못 한다.나의 현재 이해 로 는,우 리 는 인터넷 주 소 를 요청 하고,서버 는 우리 에 게 슈퍼 큰 텍스트 를 되 돌려 주 며,우리 의 브 라 우 저 는 이 슈퍼 큰 텍스트 를 우리 가 보 았 다 고 말 하 는 화려 한 페이지 로 해석 할 수 있다.
그렇다면 우 리 는 이 초대형 텍스트 를 충분 한 String 으로 보기 만 하면 된다.  문자열 은 OK 입 니 다.
다음은 제 코드 입 니 다.

package main.spider;
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;
import java.io.IOException;
/**
 * Created by 1755790963 on 2017/3/10.
 */
public class Second {
  public static void main(String[] args) throws IOException {
    System.out.println("begin");
    Document document = Jsoup.connect("http://tieba.baidu.com/p/2356694991").get();
    String selector="div[class=d_post_content j_d_post_content clearfix]";
    Elements elements = document.select(selector);
    for (Element element:elements){
      String word= element.text();
      if(word.indexOf("@")>0){
        word=word.substring(0,word.lastIndexOf("@")+7);
        System.out.println(word);
      }
      System.out.println(word);
    }
  }
}
저 는 여기 서 apache 회사 가 제공 하 는 jsoup 을 사 용 했 습 니 다.   jar 패키지,jsoup 는 자바 의 HTML 해상도 기 로 URL 주소,HTML 텍스트 내용 을 직접 분석 할 수 있 습 니 다.그것 은 DOM,CSS 및 jQuery 와 유사 한 조작 방법 으로 데 이 터 를 추출 하고 조작 할 수 있 는 매우 편리 한 API 를 제공 합 니 다.
코드 에서 저 희 는 Jsoup 류 를 직접 사용 하고 Jsoup 의 connect()방법 을 내 보 낼 수 있 습 니 다.이 방법 은 org.jsoup.Connection 대상 을 되 돌려 줍 니 다.매개 변 수 는 사이트 의 url 주소 이 고 Connection 대상 은 get()방법 으로 Document 대상 을 되 돌려 줍 니 다.
document 대상 의 select 방법 은 Elements 대상 을 되 돌려 줄 수 있 습 니 다.Elements 대상 은 정식 Element 대상 의 집합 이지 만 select()방법 은 String 인 자 를 입력 해 야 합 니 다.이 인 자 는 우리 의 선택 기 입 니 다.String selector="div[class=d_post_content j_d_post_content  clearfix]";우리 의 선택 기 문법 은 jquery 의 선택 기 문법 과 유사 합 니 다.html 페이지 의 요 소 를 선택 할 수 있 습 니 다.선택 한 후에 Elements 집합 을 편리 하 게 하고 Element 의 text()방법 으로 html 의 코드 를 얻 을 수 있 습 니 다.
이렇게 해서 가장 간단 한 인터넷 파충류 가 다 썼 다.
내 가 선택 한 인터넷 주 소 는 콩짜개 망 이 니,너의 메 일 을 남 겨 라.나 는 너 에 게 메 일 을 보 낼 것 이다.  이렇게 바 이 두 스티커 를 붙 여 주세요.제 가 벗 긴 것 은 모든 사람의 메 일 주소 입 니 다.
결과 첨부:

이상 은 본 고의 모든 내용 입 니 다.본 고의 내용 이 여러분 의 학습 이나 업무 에 어느 정도 도움 이 되 기 를 바 랍 니 다.또한 저 희 를 많이 지지 해 주시 기 바 랍 니 다!

좋은 웹페이지 즐겨찾기