python 파충류 의 작업 원리
인터넷 파충류,즉 웹 스파이 더 는 매우 형상 적 인 이름 이다.인터넷 을 거미줄 에 비유 하면 Spider 는 인터넷 에서 기어 다 니 는 거미 다.인터넷 거 미 는 홈 페이지 의 링크 주 소 를 통 해 홈 페이지 를 찾는다.사이트 의 한 페이지(보통 첫 페이지)부터 웹 페이지 의 내용 을 읽 고 웹 페이지 에 있 는 다른 링크 주 소 를 찾 은 다음 에 이 링크 주 소 를 통 해 다음 웹 페이지 를 찾 습 니 다.이렇게 하면 이 사이트 의 모든 웹 페이지 를 캡 처 할 때 까지 계속 순환 합 니 다.인터넷 전 체 를 하나의 사이트 로 본다 면 인터넷 거 미 는 이 원리 로 인터넷 의 모든 웹 페이지 를 캡 처 할 수 있다.그 러 고 보 니 인터넷 파충 류 는 웹 페이지 를 캡 처 하 는 파충 프로그램 이다.인터넷 파충류 의 기본 동작 은 웹 페이지 를 캡 처 하 는 것 이다.그러면 어떻게 해야만 마음대로 자신 이 원 하 는 페이지 를 얻 을 수 있 습 니까?URL 부터.
웹 페이지 를 캡 처 하 는 과정 은 사실 독자 가 평소에 IE 브 라 우 저 를 사용 하여 웹 페이지 를 조회 하 는 것 과 같은 이치 이다.예 를 들 어 브 라 우 저의 주소 표시 줄 에 이 주 소 를 입력 하 십시오.웹 페이지 를 여 는 과정 은 브 라 우 저가 탐색 하 는'클 라 이언 트'로 서 서버 측 에 요청 을 보 내 서버 측의 파일 을 로 컬 로 잡 아 설명 하고 보 여 주 는 것 이다.HTML 은 태그 언어 로 태그 로 내용 을 표시 하고 해석 하 며 구분 합 니 다.브 라 우 저의 기능 은 얻 은 HTML 코드 를 분석 한 다음 에 원본 코드 를 우리 가 직접 보 는 사이트 페이지 로 바 꾸 는 것 입 니 다.
쉽게 말 하면 URL 은 브 라 우 저 에서 입력 한www.baidu.com문자열 입 니 다.URL 을 이해 하기 전에 먼저 URI 의 개념 을 이해 해 야 한다.
URI 가 뭐야?
웹 에서 사용 할 수 있 는 모든 자원,예 를 들 어 HTML 문서,이미지,비디오 세 션,프로그램 등 은 하나의 유 니 버 설 자원 플래그(Universal Resource Identifier,URI)로 포 지 셔 닝 됩 니 다.
URI 는 보통 세 부분 으로 구성 되 어 있 습 니 다.
URL 은 URI 의 하위 집합 입 니 다.이것 은 Uniform Resource Locator 의 줄 임 말로'통 일 된 자원 포 지 셔 닝 문자'로 번역 합 니 다.일반적으로 URL 은 인터넷 에서 정보 자원 을 묘사 하 는 문자열 로 각종 WWW 클 라 이언 트 와 서버 프로그램 에 사용 된다.URL 을 사용 하면 파일,서버 주소,디 렉 터 리 등 다양한 정보 자원 을 통 일 된 형식 으로 묘사 할 수 있 습 니 다.URL 의 일반 형식 은 다음 과 같 습 니 다.
protocol :// hostname[:port] / path / [;parameters][?query]#fragment
URL 의 형식 은 세 부분 으로 구성 되 어 있 습 니 다.
3.URL 과 URI 의 간단 한 비교
URI 는 URL 이 더 낮은 차원 의 추상 적 이 고 문자열 텍스트 표준 에 속한다.다시 말 하면 URI 는 부모 클래스 에 속 하고 URL 은 URI 의 하위 클래스 에 속한다.URL 은 URI 의 하위 집합 입 니 다.URI 의 정 의 는 자원 식별 자 를 통일 하 는 것 입 니 다.URL 의 정 의 는 자원 포 지 셔 닝 부 호 를 통일 하 는 것 입 니 다.두 가지 차이 점 은 URI 가 요청 서버 의 경 로 를 표시 하고 이 자원 을 정의 하 는 것 이다.URL 은 이 자원 에 어떻게 접근 하 는 지 설명 합 니 다(http:/).
다음은 두 URL 의 작은 예 를 살 펴 보 겠 습 니 다.
1.HTTP 프로 토 콜 의 URL 예제:
하이퍼텍스트 전송 프로 토 콜 HTTP 를 사용 하여 하이퍼텍스트 정보 서 비 스 를 제공 하 는 자원 입 니 다.
예:www.webmonkey.com.cn
컴퓨터 도 메 인 이름http://www.peopledaily.com.cn/channel/welcome.htm.
하이퍼텍스트 파일(파일 형식 은.html)은 디 렉 터 리/channel 에 있 는 welcome.htm 입 니 다.
이것 은 중국 인민 일보 의 컴퓨터 다.
예:www.peopledaily.com.cn
컴퓨터 도 메 인 이름http://www.rol.cn.NET/talk/talk1.htm.
하이퍼텍스트 파일(파일 형식 은.html)은 디 렉 터 리/talk 에서 talk 1.htm 입 니 다.
서 드 채 팅 방 의 주소 로 서 드 채 팅 방 의 첫 번 째 방 으로 들 어 갈 수 있다.
2.파일 의 URL
URL 로 파일 을 표시 할 때 서버 방식 은 file 로 표시 하고 그 뒤에 호스트 IP 주소,파일 의 액세스 경로(즉 디 렉 터 리)와 파일 이름 등 정보 가 있어 야 합 니 다.
디 렉 터 리 와 파일 이름 을 생략 할 수도 있 지만'/'기 호 는 생략 할 수 없습니다.
예:www.rol.cn.Net
위의 URL 은 호스트file://ftp.yoyodyne.com/pub/files/foobar.txt에 저 장 된 pub/files/디 렉 터 리 의 다음 파일 을 의미 합 니 다.파일 이름 은 foobar.txt 입 니 다.
예:ftp.yoyodyne.com
호스트file://ftp.yoyodyne.com/pub의 디 렉 터 리/pub 를 대표 합 니 다.
예:ftp.yoyodyne.com
호스트file://ftp.yoyodyne.com/를 대표 하 는 루트 디 렉 터 리 입 니 다.
파충류 의 가장 중요 한 처리 대상 은 URL 입 니 다.URL 주소 에 따라 필요 한 파일 내용 을 얻 은 다음 에 더 많은 처 리 를 합 니 다.
따라서 URL 을 정확하게 이해 하 는 것 은 인터넷 파충 류 를 이해 하 는 데 중요 하 다.
이상 은 본 고의 모든 내용 입 니 다.본 고의 내용 이 여러분 의 학습 이나 업무 에 어느 정도 도움 이 되 기 를 바 랍 니 다.또한 저 희 를 많이 지지 해 주시 기 바 랍 니 다!
이 내용에 흥미가 있습니까?
현재 기사가 여러분의 문제를 해결하지 못하는 경우 AI 엔진은 머신러닝 분석(스마트 모델이 방금 만들어져 부정확한 경우가 있을 수 있음)을 통해 가장 유사한 기사를 추천합니다:
로마 숫자를 정수로 또는 그 반대로 변환그 중 하나는 로마 숫자를 정수로 변환하는 함수를 만드는 것이었고 두 번째는 그 반대를 수행하는 함수를 만드는 것이었습니다. 문자만 포함합니다'I', 'V', 'X', 'L', 'C', 'D', 'M' ; 문자열이 ...
텍스트를 자유롭게 공유하거나 복사할 수 있습니다.하지만 이 문서의 URL은 참조 URL로 남겨 두십시오.
CC BY-SA 2.5, CC BY-SA 3.0 및 CC BY-SA 4.0에 따라 라이센스가 부여됩니다.