Python 파충류 기초 파충류 의 분류 지식 총화

파충류
유 니 버 설 인터넷 파충 류 는 검색엔진 캡 처 시스템(Baidu,Google,Sogou 등)의 중요 한 구성 부분 이다.인터넷 에 있 는 웹 페이지 를 로 컬 에 다운로드 하여 인터넷 콘 텐 츠 의 미 러 백업 을 만 드 는 것 이 주요 목적 이다.검색엔진 에 검색 지원 을 제공 하 다.

첫걸음
검색엔진 은 수천 개의 사이트 에 가서 데 이 터 를 캡 처 한다.
두 번 째 단계
검색엔진 은 파충류 가 기어 온 웹 페이지 를 통 해 데 이 터 를 원본 페이지 데이터베이스(즉 문서 라 이브 러 리)에 저장 합 니 다.그 중의 페이지 데 이 터 는 사용자 브 라 우 저 에서 얻 은 HTML 과 완전히 같다.
세 번 째 단계
검색엔진 은 파충 류 를 잡 아 온 페이지 를 각종 절차 의 예비 처 리 를 한다.중국어 단어,소음 제거,색인 처리.
검색엔진 은 정 보 를 조직 하고 처리 한 후 사용자 에 게 키워드 검색 서 비 스 를 제공 하여 사용자 검색 과 관련 된 정 보 를 사용자 에 게 보 여 준다.전시 할 때 순 위 를 매 긴 다.
2.검색엔진 의 한계 성
4.567917.검색엔진 이 캡 처 한 것 은 전체 웹 페이지 이지 구체 적 인 상세 한 정보 가 아니다4.567917.검색엔진 은 구체 적 인 고객 의 수요 에 대한 검색 결 과 를 제공 할 수 없습니다파충류 에 초점 을 맞추다
유 니 버 설 파충류 의 경우 파충류 에 초점 을 맞 추 는 기술 이 광범 위 하 게 사용 된다.파충류 에 초점 을 맞 추 는 것 은'특정 주제 에 대한 수요'의 인터넷 파충류 프로그램 으로 유 니 버 설 검색엔진 파충류 와 의 차이 점 은 파충류 가 웹 페이지 캡 처 를 실시 할 때 내용 을 처리 하고 선별 하 며 수요 와 관련 된 웹 페이지 데이터 만 캡 처 하도록 하 는 것 이다.
3.로봇 협의
robots 는 사이트 와 파충류 간 의 협의 로 간단 하고 직접적인 txt 형식 텍스트 로 대응 하 는 파충류 가 허용 하 는 권한 을 알려 준다.즉,robots.txt 는 검색엔진 에서 사 이 트 를 방문 할 때 볼 수 있 는 첫 번 째 파일 이다.거미 가 사 이 트 를 방문 할 때 먼저 이 사이트 루트 디 렉 터 리 에 robots.txt 가 존재 하 는 지 확인 합 니 다.존재 하면 검색 로봇 은 이 파일 의 내용 에 따라 접근 범 위 를 확인 합 니 다.이 파일 이 존재 하지 않 는 다 면 모든 검색 거 미 는 사이트 에 암호 로 보 호 된 페이지 를 방문 할 수 있 습 니 다.바 이 두 백과
로봇 프로 토 콜 은 파충류 프로 토 콜,로봇 프로 토 콜 등 이 라 고도 하 는데 모두'인터넷 파충류 배제 기준'(Robots ExclusionProtocol)이 라 고 부른다.사 이 트 는 로봇 프로 토 콜 을 통 해 검색엔진 에 어떤 페이지 를 캡 처 할 수 있 는 지,어떤 페이지 를 캡 처 할 수 없 는 지 알려 준다.예 를 들 어:
타 오 바 오: https://www.taobao.com/robots.txt
바 이 두: https://www.baidu.com/robots.txt
4.요구 와 상응
네트워크 통신 은 두 부분 으로 구성 되 어 있 습 니 다.클 라 이언 트 요청 메시지 와 서버 응답 메시지 입 니 다.

브 라 우 저가 HTTP 요청 을 보 내 는 과정:

1.브 라 우 저 에 URL 을 입력 하면 https://www.baidu.com브 라 우 저 에서 Request 요청 을 보 냅 니 다.
획득 https://www.baidu.com html 파일,서버 는 Response 파일 대상 을 브 라 우 저 에 보 냅 니 다.
2.브 라 우 저 는 Response 의 HTML 을 분석 한 결과 이미지 파일,CSS 파일,JS 파일 등 다른 파일 을 많이 인용 한 것 을 발견 했다.브 라 우 저 는 자동 으로 Request 를 보 내 그림,CSS 파일 또는 JS 파일 을 가 져 옵 니 다.
3.모든 파일 을 다운로드 에 성공 하면 웹 페이지 는 HTML 문법 구조 에 따라 완전 하 게 표 시 됩 니 다.
실제로 우 리 는 파충류 기술 을 배 워 서 데 이 터 를 얻 는 것 도 서버 에 데 이 터 를 요청 하고 서버 응답 데 이 터 를 얻 는 과정 이다.
파 이 썬 파충류 의 기초 파충류 에 대한 분류 지식 을 정리 한 이 글 은 여기까지 입 니 다.더 많은 파 이 썬 파충류 에 대한 분류 내용 은 우리 의 이전 글 을 검색 하거나 아래 의 관련 글 을 계속 찾 아 보 세 요.앞으로 도 많은 응원 부 탁 드 리 겠 습 니 다!

좋은 웹페이지 즐겨찾기