사이트 로봇.txt
robots.txt 사용 자주 이해 오류
오류1: 내 사이트의 모든 파일은 거미가 캡처해야 하기 때문에 로봇을 추가할 필요가 없습니다.txt 파일입니다.어차피 이 파일이 존재하지 않는다면, 모든 검색 거미는 기본적으로 사이트에 구령이 보호되지 않은 페이지를 방문할 수 있을 것이다.서버는 사용자가 존재하지 않는 URL에 액세스하려고 할 때마다 로그에 404 오류를 기록합니다. (파일을 찾을 수 없습니다.)거미를 찾아서 존재하지 않는 로봇을 찾을 때마다.txt 파일을 만들 때 서버도 로그에 404 오류를 기록합니다. 따라서 사이트에 로봇을 추가해야 합니다.txt.오류2: 로봇에서.txt 파일에 설정된 모든 파일은 검색 거미에게 잡혀서 사이트의 수록률을 높일 수 있습니다.사이트의 프로그램 스크립트, 스타일시트 등 파일은 거미가 수록해도 사이트의 수록률을 높이지 않고 서버 자원만 낭비할 수 있다.그래서 로봇에 있어야 합니다.txt 파일에서 거미 색인을 검색하지 않도록 설정합니다.구체적으로 어떤 파일을 배제해야 하는지,robots.txt 사용 기교에 대한 상세한 소개가 있습니다.오류 3: 거미를 검색하여 웹 페이지를 잡는 것은 서버 자원을 너무 낭비한다.robots.txt 파일은 모든 검색 거미가 모든 웹 페이지를 잡을 수 없도록 설정합니다.만약 이렇게 된다면 전체 사이트가 검색엔진에 수록되지 못하게 될 것이다.
robots.txt 사용 기교
1. 서버는 사용자가 존재하지 않는 URL에 액세스하려고 할 때마다 로그에 404 오류를 기록합니다. (파일을 찾을 수 없습니다.)거미를 찾아서 존재하지 않는 로봇을 찾을 때마다.txt 파일이 있을 때 서버도 로그에 404 오류를 기록합니다. 따라서 사이트에 로봇을 추가해야 합니다.txt. 2. 웹 사이트 관리자는 거미 프로그램을 일부 서버의 디렉터리에서 멀어지게 해야 한다. 서버의 성능을 확보해야 한다.예를 들어 대부분의 사이트 서버에'cgi-bin'디렉터리에 저장된 프로그램이 있기 때문에robots.txt 파일에 "Disallow:/cgi-bin"을 추가하는 것은 좋은 생각입니다. 이렇게 하면 모든 프로그램 파일을 거미에 인덱스하는 것을 피할 수 있고 서버 자원을 절약할 수 있습니다.일반 사이트에서 거미가 캡처하지 않아도 되는 파일은 백그라운드 관리 파일, 프로그램 스크립트, 첨부 파일, 데이터베이스 파일, 인코딩 파일, 스타일시트 파일, 템플릿 파일, 내비게이션 이미지와 배경 사진 등이다.다음은 VeryCMS의 로봇입니다.txt 파일:
User-agent: * Disallow: /admin/ Disallow: /require/ Disallow: /attachment/ Disallow: /images/ Disallow: /data/ Disallow: /template/ Disallow: /css/ Disallow: /lang/ Disallow: /script/
3. 만약 당신의 사이트가 동적 웹 페이지이고, 이 동적 웹 페이지들을 위해 정적 복사본을 만들어서 거미를 검색하여 쉽게 잡을 수 있도록 합니다.그럼 로봇이 필요해.txt 파일에는 동적 웹 페이지가 거미에 의해 인덱스되지 않도록 설정합니다. 이 웹 페이지가 중복된 내용으로 간주되지 않도록 합니다. 4. robots.txt 파일에는sitemap 파일에 직접 포함된 링크도 있습니다.이렇게:.현재 이를 지원하는 검색엔진 회사는 Google, Yahoo, Ask and MSN입니다.중국어 검색엔진 회사는 분명히 이 범위 안에 있지 않다.이렇게 하는 장점은 역장이 모든 검색엔진의 역장 도구나 비슷한 역장 부분에 가서 자신의 사이트 맵 파일을 제출하지 않아도 검색엔진의 거미가 로봇을 잡을 수 있다는 것이다.txt 파일은 사이트맵 경로를 읽고 연결된 웹 페이지를 캡처합니다. 5. 로봇을 합리적으로 사용하다.txt 파일은 접근 오류를 피할 수 있습니다.예를 들어 검색자가 직접 카트 페이지에 들어갈 수 없다.쇼핑카트를 수록할 이유가 없기 때문에robots에서 할 수 있습니다.txt 파일에 설정해서 검색자가 카트 페이지로 직접 들어가는 것을 막습니다. robots.txt 파일의 형식인'robots.txt'파일에는 하나 이상의 기록이 포함되어 있습니다. 이 기록들은 빈 줄을 통해 분리됩니다. (CR, CR/NL, or NL을 끝자로 합니다.) 모든 기록의 형식은 다음과 같습니다.UNIX의 규칙과 같이 # 을 사용하여 파일에서 메모를 작성할 수 있습니다.이 파일의 기록은 보통 한 줄 또는 여러 줄의 User-agent로 시작하고, 뒤에 약간의 Disallow와 Allow 줄을 추가합니다. 상세한 상황은 다음과 같습니다. User-agent: 이 항목의 값은 검색엔진 로봇의 이름을 설명하는 데 사용됩니다."robots.txt"파일에서 여러 개의 User-agent 기록이 있으면 여러 개의 로봇이 "robots.txt"의 제한을 받게 됩니다. 이 파일에 대해 말하자면 최소한 하나의 User-agent 기록이 있어야 합니다.이 항목의 값을 로 설정하면 모든 로봇에 유효합니다.'robots.txt'파일에서'User-agent:'라는 기록은 하나만 있을 수 있습니다."robots.txt"파일에 "User-agent: SomeBot"과 약간의 Disallow, Allow 줄을 넣으면, "SomeBot"이라는 이름은 "User-agent: SomeBot"뒤에 있는 Disallow와 Allow 줄에만 제한됩니다.Disallow: 이 항목의 값은 접근하기를 원하지 않는 URL 그룹을 설명하는 데 사용됩니다. 이 값은 완전한 경로일 수도 있고, 경로의 비어 있는 접두사일 수도 있습니다. Disallow 항목의 값으로 시작하는 URL은robot에 접근하지 않습니다.예를 들어 "Disallow:/help"는 robot 액세스/help를 금지합니다.html、/helpabc.html、/help/index.html, "Disallow:/help/"는 로봇이/help에 접근할 수 있도록 합니다.html、/helpabc.html,/help/index에 접근할 수 없습니다.html."Disallow:"설명은 로봇이 이 사이트의 모든 URL에 접근할 수 있도록 합니다. "/robots.txt"파일에 최소한 Disallow 기록이 있어야 합니다."/robots.txt"가 존재하지 않거나 빈 파일이면 모든 검색엔진 robot에 대해 이 사이트는 개방됩니다.Allow: 이 항목의 값은 액세스할 URL 그룹을 설명하는 데 사용됩니다. Disallow 항목과 비슷합니다. 이 값은 완전한 경로일 수도 있고 경로의 접두사일 수도 있습니다. Allow 항목의 값으로 시작하는 URL은 로봇이 접근할 수 있도록 합니다.예를 들어 "Allow:/hibaidu"는 로봇이/hibaidu에 접근할 수 있도록 합니다.htm、/hibaiducom.html、/hibaidu/com.html.한 사이트의 모든 URL은 기본적으로 Allow이기 때문에 Allow는 일반적으로 Disallow와 함께 사용되며 일부 웹 페이지에 접근할 수 있고 다른 모든 URL에 접근할 수 없는 기능을 실현한다.특히 주의해야 할 것은 Disallow와 Allow 줄의 순서는 의미가 있습니다. 로봇은 첫 번째 일치하는 Allow나 Disallow 줄에 따라 URL에 접근할지 여부를 결정합니다.''및'$'사용: Baiduspider는 URL과 일치하는 어댑터''과'$'를 사용할 수 있습니다."$"은 행 끝 문자와 일치합니다."*"는 0 개 이상의 문자와 일치합니다.
이 내용에 흥미가 있습니까?
현재 기사가 여러분의 문제를 해결하지 못하는 경우 AI 엔진은 머신러닝 분석(스마트 모델이 방금 만들어져 부정확한 경우가 있을 수 있음)을 통해 가장 유사한 기사를 추천합니다:
다양한 언어의 JSONJSON은 Javascript 표기법을 사용하여 데이터 구조를 레이아웃하는 데이터 형식입니다. 그러나 Javascript가 코드에서 이러한 구조를 나타낼 수 있는 유일한 언어는 아닙니다. 저는 일반적으로 '객체'{}...
텍스트를 자유롭게 공유하거나 복사할 수 있습니다.하지만 이 문서의 URL은 참조 URL로 남겨 두십시오.
CC BY-SA 2.5, CC BY-SA 3.0 및 CC BY-SA 4.0에 따라 라이센스가 부여됩니다.