python 파충류 에서 robots. txt 와 Sitemap 파일 에 대한 이해

1. robots. txt 파일: 사용자 에이전트 가 BadCrawler 의 파충 류 를 위해 이 사이트 의 정 보 를 기어 오 르 는 것 을 금지 합 니 다. 상세 한 정보http://www.robotstxt.org/robotstxt.html
2.#section 1
① 대리 및 허가

User-agent:BadCrawler
Disallow:/

* * * User - agent: 대리 사용자;Disallow: 제 외 된 URL * * *

User-agent:*
Disallow:/cgi-bin/
Disallow:/tmp/
Disallow:/~joe/
***            ***
***      URL     Disallow，        Disallow ***                          。      '*'       ，   “     ”。    ，     “User-agent:bot*、disallow:/tep/*、disallow:*.gif”    ***

② 모든 로봇 을 서버 에서 제외

User-agent:*
Disallow:/

③ 모든 로봇 접근 허용: 또는 빈 robots 파일 을 만 들 거나 robots 파일 을 사용 하지 않 습 니 다.

User-agent:*
Disallow:

④ 모든 로봇 을 서버 의 일부 에서 제외

User-agent:*
Disallow:/cgi-bin/
Disallow:/tmp/
Disallow:/junk/

⑤ 단일 로봇 제외

User-agent:BadBot
Disallow:/

⑥ 로봇 허용

User-agent:Google
Disallow:

⑦ 파일 을 제외 한 모든 파일: 허용 되 지 않 는 모든 파일 을 하나의 디 렉 터 리 에 저장 합 니 다. 예 를 들 어 "Stuff" 와 같은 파일 을 이 디 렉 터 리 의 아 이 큐 단계 에 저장 합 니 다.

User-agent:*
Disallow:/~fool/Stuff/

⑨ 모든 페이지 금지

User-agent:*
Disallow:/~joe/junk.html
Disallow:/~joe/foo.html
---------------------------

* * * 어떤 사용자 에이전트 든 두 번 의 다운로드 요청 사이 에 5 초 지연 이 있어 야 합 니 다. / trap 연결 은 링크 가 금지 되 어 있 습 니 다. 이 링크 에 접근 하면 서버 에서 IP 를 1 분 또는 영구적 으로 차단 합 니 다 * * *

User-agent:*
Crawl-delay:5
Disallow:/trap

3.#section 3
① Sitemap 파일 설명:http://example.webscraping.com/sitemap.xml
-- 1. Sitemap: 사이트 맵 은 robots. txt 파일 에 설정 되 어 있 으 며 태그 가 '...'
다음으로 전송:https://www.cnblogs.com/yangzhuanzheng/articles/10143288.html

이 내용에 흥미가 있습니까?

현재 기사가 여러분의 문제를 해결하지 못하는 경우 AI 엔진은 머신러닝 분석(스마트 모델이 방금 만들어져 부정확한 경우가 있을 수 있음)을 통해 가장 유사한 기사를 추천합니다:

다양한 언어의 JSON

JSON은 Javascript 표기법을 사용하여 데이터 구조를 레이아웃하는 데이터 형식입니다. 그러나 Javascript가 코드에서 이러한 구조를 나타낼 수 있는 유일한 언어는 아닙니다. 저는 일반적으로 '객체'{}...

텍스트를 자유롭게 공유하거나 복사할 수 있습니다.하지만 이 문서의 URL은 참조 URL로 남겨 두십시오.

CC BY-SA 2.5, CC BY-SA 3.0 및 CC BY-SA 4.0에 따라 라이센스가 부여됩니다.

좋은 웹페이지 즐겨찾기

개발자 우수 사이트 수집

개발자가 알아야 할 필수 사이트 100선 추천 우리는 당신을 위해 100개의 자주 사용하는 개발자 학습 사이트를 정리했습니다