python 파충류 에서 robots. txt 와 Sitemap 파일 에 대한 이해

1. robots. txt 파일: 사용자 에이전트 가 BadCrawler 의 파충 류 를 위해 이 사이트 의 정 보 를 기어 오 르 는 것 을 금지 합 니 다. 상세 한 정보http://www.robotstxt.org/robotstxt.html
2.#section 1
① 대리 및 허가
User-agent:BadCrawler
Disallow:/

* * * User - agent: 대리 사용자;Disallow: 제 외 된 URL * * *
User-agent:*
Disallow:/cgi-bin/
Disallow:/tmp/
Disallow:/~joe/
***            ***
***      URL     Disallow,        Disallow ***                          。      '*'       ,   “     ”。    ,     “User-agent:bot*、disallow:/tep/*、disallow:*.gif”    ***

② 모든 로봇 을 서버 에서 제외
User-agent:*
Disallow:/

③ 모든 로봇 접근 허용: 또는 빈 robots 파일 을 만 들 거나 robots 파일 을 사용 하지 않 습 니 다.
User-agent:*
Disallow:

④ 모든 로봇 을 서버 의 일부 에서 제외
User-agent:*
Disallow:/cgi-bin/
Disallow:/tmp/
Disallow:/junk/

⑤ 단일 로봇 제외
User-agent:BadBot
Disallow:/

⑥ 로봇 허용
User-agent:Google
Disallow:

⑦ 파일 을 제외 한 모든 파일: 허용 되 지 않 는 모든 파일 을 하나의 디 렉 터 리 에 저장 합 니 다. 예 를 들 어 "Stuff" 와 같은 파일 을 이 디 렉 터 리 의 아 이 큐 단계 에 저장 합 니 다.
User-agent:*
Disallow:/~fool/Stuff/

⑨ 모든 페이지 금지
User-agent:*
Disallow:/~joe/junk.html
Disallow:/~joe/foo.html
---------------------------

* * * 어떤 사용자 에이전트 든 두 번 의 다운로드 요청 사이 에 5 초 지연 이 있어 야 합 니 다. / trap 연결 은 링크 가 금지 되 어 있 습 니 다. 이 링크 에 접근 하면 서버 에서 IP 를 1 분 또는 영구적 으로 차단 합 니 다 * * *
User-agent:*
Crawl-delay:5
Disallow:/trap

3.#section 3
① Sitemap 파일 설명:http://example.webscraping.com/sitemap.xml
-- 1. Sitemap: 사이트 맵 은 robots. txt 파일 에 설정 되 어 있 으 며 태그 가 '...'
다음으로 전송:https://www.cnblogs.com/yangzhuanzheng/articles/10143288.html

좋은 웹페이지 즐겨찾기