python 파충류 의 작업 원리

4832 단어 python파충
1.파충류 의 작업 원리
인터넷 파충류,즉 웹 스파이 더 는 매우 형상 적 인 이름 이다.인터넷 을 거미줄 에 비유 하면 Spider 는 인터넷 에서 기어 다 니 는 거미 다.인터넷 거 미 는 홈 페이지 의 링크 주 소 를 통 해 홈 페이지 를 찾는다.사이트 의 한 페이지(보통 첫 페이지)부터 웹 페이지 의 내용 을 읽 고 웹 페이지 에 있 는 다른 링크 주 소 를 찾 은 다음 에 이 링크 주 소 를 통 해 다음 웹 페이지 를 찾 습 니 다.이렇게 하면 이 사이트 의 모든 웹 페이지 를 캡 처 할 때 까지 계속 순환 합 니 다.인터넷 전 체 를 하나의 사이트 로 본다 면 인터넷 거 미 는 이 원리 로 인터넷 의 모든 웹 페이지 를 캡 처 할 수 있다.그 러 고 보 니 인터넷 파충 류 는 웹 페이지 를 캡 처 하 는 파충 프로그램 이다.인터넷 파충류 의 기본 동작 은 웹 페이지 를 캡 처 하 는 것 이다.그러면 어떻게 해야만 마음대로 자신 이 원 하 는 페이지 를 얻 을 수 있 습 니까?URL 부터.
웹 페이지 를 캡 처 하 는 과정 은 사실 독자 가 평소에 IE 브 라 우 저 를 사용 하여 웹 페이지 를 조회 하 는 것 과 같은 이치 이다.예 를 들 어 브 라 우 저의 주소 표시 줄 에 이 주 소 를 입력 하 십시오.웹 페이지 를 여 는 과정 은 브 라 우 저가 탐색 하 는'클 라 이언 트'로 서 서버 측 에 요청 을 보 내 서버 측의 파일 을 로 컬 로 잡 아 설명 하고 보 여 주 는 것 이다.HTML 은 태그 언어 로 태그 로 내용 을 표시 하고 해석 하 며 구분 합 니 다.브 라 우 저의 기능 은 얻 은 HTML 코드 를 분석 한 다음 에 원본 코드 를 우리 가 직접 보 는 사이트 페이지 로 바 꾸 는 것 입 니 다.
쉽게 말 하면 URL 은 브 라 우 저 에서 입력 한www.baidu.com문자열 입 니 다.URL 을 이해 하기 전에 먼저 URI 의 개념 을 이해 해 야 한다.
URI 가 뭐야?
웹 에서 사용 할 수 있 는 모든 자원,예 를 들 어 HTML 문서,이미지,비디오 세 션,프로그램 등 은 하나의 유 니 버 설 자원 플래그(Universal Resource Identifier,URI)로 포 지 셔 닝 됩 니 다.
URI 는 보통 세 부분 으로 구성 되 어 있 습 니 다.
  • 자원 에 접근 하 는 명명 메커니즘;
  • 자원 을 저장 하 는 호스트 이름;
  • 자원 자체 의 이름 은 경로 에 의 해 표 시 됩 니 다.
  • 아래 URI 와 같이:http://www.baidu.com
  • 이것 은 HTTP 프로 토 콜 을 통 해 접근 할 수 있 는 자원 입 니 다.
  • 호스트http://www.why.com.cn/myhtml/html1223/에 위치 하고
  • 경로'/html/html 40'을 통 해 접근 합 니 다. 
  • 2.  URL 의 이해 와 예
    URL 은 URI 의 하위 집합 입 니 다.이것 은 Uniform Resource Locator 의 줄 임 말로'통 일 된 자원 포 지 셔 닝 문자'로 번역 합 니 다.일반적으로 URL 은 인터넷 에서 정보 자원 을 묘사 하 는 문자열 로 각종 WWW 클 라 이언 트 와 서버 프로그램 에 사용 된다.URL 을 사용 하면 파일,서버 주소,디 렉 터 리 등 다양한 정보 자원 을 통 일 된 형식 으로 묘사 할 수 있 습 니 다.URL 의 일반 형식 은 다음 과 같 습 니 다.
    protocol :// hostname[:port] / path / [;parameters][?query]#fragment
    URL 의 형식 은 세 부분 으로 구성 되 어 있 습 니 다.
  • 첫 번 째 부분 은 협의(또는 서비스 방식 이 라 고 함)이다.
  • 두 번 째 부분 은 이 자원 이 저 장 된 호스트 IP 주소(포트 번호 도 포함)입 니 다.
  • 세 번 째 부분 은 디 렉 터 리 와 파일 이름 등 호스트 자원 의 구체 적 인 주소 입 니 다.
  • 첫 번 째 부분 과 두 번 째 부분 은':/'기호 로 분리 되 고 두 번 째 부분 과 세 번 째 부분 은'/'기호 로 분리 된다.첫 번 째 부분 과 두 번 째 부분 은 없어 서 는 안 될 것 이 고,세 번 째 부분 은 때때로 생략 할 수 있다.
    3.URL 과 URI 의 간단 한 비교
    URI 는 URL 이 더 낮은 차원 의 추상 적 이 고 문자열 텍스트 표준 에 속한다.다시 말 하면 URI 는 부모 클래스 에 속 하고 URL 은 URI 의 하위 클래스 에 속한다.URL 은 URI 의 하위 집합 입 니 다.URI 의 정 의 는 자원 식별 자 를 통일 하 는 것 입 니 다.URL 의 정 의 는 자원 포 지 셔 닝 부 호 를 통일 하 는 것 입 니 다.두 가지 차이 점 은 URI 가 요청 서버 의 경 로 를 표시 하고 이 자원 을 정의 하 는 것 이다.URL 은 이 자원 에 어떻게 접근 하 는 지 설명 합 니 다(http:/).
    다음은 두 URL 의 작은 예 를 살 펴 보 겠 습 니 다.
     1.HTTP 프로 토 콜 의 URL 예제:
    하이퍼텍스트 전송 프로 토 콜 HTTP 를 사용 하여 하이퍼텍스트 정보 서 비 스 를 제공 하 는 자원 입 니 다.
    예:www.webmonkey.com.cn
    컴퓨터 도 메 인 이름http://www.peopledaily.com.cn/channel/welcome.htm.
    하이퍼텍스트 파일(파일 형식 은.html)은 디 렉 터 리/channel 에 있 는 welcome.htm 입 니 다.
    이것 은 중국 인민 일보 의 컴퓨터 다.
    예:www.peopledaily.com.cn
    컴퓨터 도 메 인 이름http://www.rol.cn.NET/talk/talk1.htm.
    하이퍼텍스트 파일(파일 형식 은.html)은 디 렉 터 리/talk 에서 talk 1.htm 입 니 다.
    서 드 채 팅 방 의 주소 로 서 드 채 팅 방 의 첫 번 째 방 으로 들 어 갈 수 있다.
    2.파일 의 URL
    URL 로 파일 을 표시 할 때 서버 방식 은 file 로 표시 하고 그 뒤에 호스트 IP 주소,파일 의 액세스 경로(즉 디 렉 터 리)와 파일 이름 등 정보 가 있어 야 합 니 다.
    디 렉 터 리 와 파일 이름 을 생략 할 수도 있 지만'/'기 호 는 생략 할 수 없습니다.
    예:www.rol.cn.Net
    위의 URL 은 호스트file://ftp.yoyodyne.com/pub/files/foobar.txt에 저 장 된 pub/files/디 렉 터 리 의 다음 파일 을 의미 합 니 다.파일 이름 은 foobar.txt 입 니 다.
    예:ftp.yoyodyne.com
    호스트file://ftp.yoyodyne.com/pub의 디 렉 터 리/pub 를 대표 합 니 다.
    예:ftp.yoyodyne.com
    호스트file://ftp.yoyodyne.com/를 대표 하 는 루트 디 렉 터 리 입 니 다.
    파충류 의 가장 중요 한 처리 대상 은 URL 입 니 다.URL 주소 에 따라 필요 한 파일 내용 을 얻 은 다음 에 더 많은 처 리 를 합 니 다.
    따라서 URL 을 정확하게 이해 하 는 것 은 인터넷 파충 류 를 이해 하 는 데 중요 하 다.
    이상 은 본 고의 모든 내용 입 니 다.본 고의 내용 이 여러분 의 학습 이나 업무 에 어느 정도 도움 이 되 기 를 바 랍 니 다.또한 저 희 를 많이 지지 해 주시 기 바 랍 니 다!

    좋은 웹페이지 즐겨찾기