python 파충류 에서 robots. txt 와 Sitemap 파일 에 대한 이해
2.#section 1
① 대리 및 허가
User-agent:BadCrawler
Disallow:/
* * * User - agent: 대리 사용자;Disallow: 제 외 된 URL * * *
User-agent:*
Disallow:/cgi-bin/
Disallow:/tmp/
Disallow:/~joe/
*** ***
*** URL Disallow, Disallow *** 。 '*' , “ ”。 , “User-agent:bot*、disallow:/tep/*、disallow:*.gif” ***
② 모든 로봇 을 서버 에서 제외
User-agent:*
Disallow:/
③ 모든 로봇 접근 허용: 또는 빈 robots 파일 을 만 들 거나 robots 파일 을 사용 하지 않 습 니 다.
User-agent:*
Disallow:
④ 모든 로봇 을 서버 의 일부 에서 제외
User-agent:*
Disallow:/cgi-bin/
Disallow:/tmp/
Disallow:/junk/
⑤ 단일 로봇 제외
User-agent:BadBot
Disallow:/
⑥ 로봇 허용
User-agent:Google
Disallow:
⑦ 파일 을 제외 한 모든 파일: 허용 되 지 않 는 모든 파일 을 하나의 디 렉 터 리 에 저장 합 니 다. 예 를 들 어 "Stuff" 와 같은 파일 을 이 디 렉 터 리 의 아 이 큐 단계 에 저장 합 니 다.
User-agent:*
Disallow:/~fool/Stuff/
⑨ 모든 페이지 금지
User-agent:*
Disallow:/~joe/junk.html
Disallow:/~joe/foo.html
---------------------------
* * * 어떤 사용자 에이전트 든 두 번 의 다운로드 요청 사이 에 5 초 지연 이 있어 야 합 니 다. / trap 연결 은 링크 가 금지 되 어 있 습 니 다. 이 링크 에 접근 하면 서버 에서 IP 를 1 분 또는 영구적 으로 차단 합 니 다 * * *
User-agent:*
Crawl-delay:5
Disallow:/trap
3.#section 3
① Sitemap 파일 설명:http://example.webscraping.com/sitemap.xml
-- 1. Sitemap: 사이트 맵 은 robots. txt 파일 에 설정 되 어 있 으 며 태그 가 '...'
다음으로 전송:https://www.cnblogs.com/yangzhuanzheng/articles/10143288.html
이 내용에 흥미가 있습니까?
현재 기사가 여러분의 문제를 해결하지 못하는 경우 AI 엔진은 머신러닝 분석(스마트 모델이 방금 만들어져 부정확한 경우가 있을 수 있음)을 통해 가장 유사한 기사를 추천합니다:
다양한 언어의 JSONJSON은 Javascript 표기법을 사용하여 데이터 구조를 레이아웃하는 데이터 형식입니다. 그러나 Javascript가 코드에서 이러한 구조를 나타낼 수 있는 유일한 언어는 아닙니다. 저는 일반적으로 '객체'{}...
텍스트를 자유롭게 공유하거나 복사할 수 있습니다.하지만 이 문서의 URL은 참조 URL로 남겨 두십시오.
CC BY-SA 2.5, CC BY-SA 3.0 및 CC BY-SA 4.0에 따라 라이센스가 부여됩니다.