사이트 로봇.txt

4272 단어
요약: 사용자가 존재하지 않는 URL에 접근하려고 할 때마다 서버는 로그에 404 오류를 기록합니다. (파일을 찾을 수 없습니다.)거미를 찾아서 존재하지 않는 로봇을 찾을 때마다.txt 파일이 있을 때 서버도 로그에 404 오류를 기록합니다. 따라서 사이트에 로봇을 추가해야 합니다.txt.일반적인 로봇.txt 파일의 사용은 로봇이라는 txt 공백 내용 파일을 만들면 됩니다. 그러면 검색엔진이 기본적으로 전역을 캡처합니다.그러나 만약 당신의 사이트 내용이 일부 프라이버시가 검색엔진 거미에게 잡히기를 원하지 않는다면, 당신은 사용 기교에 주의해야 합니다.

  robots.txt 사용 자주 이해 오류


오류1: 내 사이트의 모든 파일은 거미가 캡처해야 하기 때문에 로봇을 추가할 필요가 없습니다.txt 파일입니다.어차피 이 파일이 존재하지 않는다면, 모든 검색 거미는 기본적으로 사이트에 구령이 보호되지 않은 페이지를 방문할 수 있을 것이다.서버는 사용자가 존재하지 않는 URL에 액세스하려고 할 때마다 로그에 404 오류를 기록합니다. (파일을 찾을 수 없습니다.)거미를 찾아서 존재하지 않는 로봇을 찾을 때마다.txt 파일을 만들 때 서버도 로그에 404 오류를 기록합니다. 따라서 사이트에 로봇을 추가해야 합니다.txt.오류2: 로봇에서.txt 파일에 설정된 모든 파일은 검색 거미에게 잡혀서 사이트의 수록률을 높일 수 있습니다.사이트의 프로그램 스크립트, 스타일시트 등 파일은 거미가 수록해도 사이트의 수록률을 높이지 않고 서버 자원만 낭비할 수 있다.그래서 로봇에 있어야 합니다.txt 파일에서 거미 색인을 검색하지 않도록 설정합니다.구체적으로 어떤 파일을 배제해야 하는지,robots.txt 사용 기교에 대한 상세한 소개가 있습니다.오류 3: 거미를 검색하여 웹 페이지를 잡는 것은 서버 자원을 너무 낭비한다.robots.txt 파일은 모든 검색 거미가 모든 웹 페이지를 잡을 수 없도록 설정합니다.만약 이렇게 된다면 전체 사이트가 검색엔진에 수록되지 못하게 될 것이다.

  robots.txt 사용 기교


  1. 서버는 사용자가 존재하지 않는 URL에 액세스하려고 할 때마다 로그에 404 오류를 기록합니다. (파일을 찾을 수 없습니다.)거미를 찾아서 존재하지 않는 로봇을 찾을 때마다.txt 파일이 있을 때 서버도 로그에 404 오류를 기록합니다. 따라서 사이트에 로봇을 추가해야 합니다.txt.  2. 웹 사이트 관리자는 거미 프로그램을 일부 서버의 디렉터리에서 멀어지게 해야 한다. 서버의 성능을 확보해야 한다.예를 들어 대부분의 사이트 서버에'cgi-bin'디렉터리에 저장된 프로그램이 있기 때문에robots.txt 파일에 "Disallow:/cgi-bin"을 추가하는 것은 좋은 생각입니다. 이렇게 하면 모든 프로그램 파일을 거미에 인덱스하는 것을 피할 수 있고 서버 자원을 절약할 수 있습니다.일반 사이트에서 거미가 캡처하지 않아도 되는 파일은 백그라운드 관리 파일, 프로그램 스크립트, 첨부 파일, 데이터베이스 파일, 인코딩 파일, 스타일시트 파일, 템플릿 파일, 내비게이션 이미지와 배경 사진 등이다.다음은 VeryCMS의 로봇입니다.txt 파일:
  User-agent: *  Disallow: /admin/    Disallow: /require/    Disallow: /attachment/    Disallow: /images/    Disallow: /data/    Disallow: /template/    Disallow: /css/    Disallow: /lang/    Disallow: /script/  

  3. 만약 당신의 사이트가 동적 웹 페이지이고, 이 동적 웹 페이지들을 위해 정적 복사본을 만들어서 거미를 검색하여 쉽게 잡을 수 있도록 합니다.그럼 로봇이 필요해.txt 파일에는 동적 웹 페이지가 거미에 의해 인덱스되지 않도록 설정합니다. 이 웹 페이지가 중복된 내용으로 간주되지 않도록 합니다.  4. robots.txt 파일에는sitemap 파일에 직접 포함된 링크도 있습니다.이렇게:.현재 이를 지원하는 검색엔진 회사는 Google, Yahoo, Ask and MSN입니다.중국어 검색엔진 회사는 분명히 이 범위 안에 있지 않다.이렇게 하는 장점은 역장이 모든 검색엔진의 역장 도구나 비슷한 역장 부분에 가서 자신의 사이트 맵 파일을 제출하지 않아도 검색엔진의 거미가 로봇을 잡을 수 있다는 것이다.txt 파일은 사이트맵 경로를 읽고 연결된 웹 페이지를 캡처합니다.  5. 로봇을 합리적으로 사용하다.txt 파일은 접근 오류를 피할 수 있습니다.예를 들어 검색자가 직접 카트 페이지에 들어갈 수 없다.쇼핑카트를 수록할 이유가 없기 때문에robots에서 할 수 있습니다.txt 파일에 설정해서 검색자가 카트 페이지로 직접 들어가는 것을 막습니다.  robots.txt 파일의 형식인'robots.txt'파일에는 하나 이상의 기록이 포함되어 있습니다. 이 기록들은 빈 줄을 통해 분리됩니다. (CR, CR/NL, or NL을 끝자로 합니다.) 모든 기록의 형식은 다음과 같습니다.UNIX의 규칙과 같이 # 을 사용하여 파일에서 메모를 작성할 수 있습니다.이 파일의 기록은 보통 한 줄 또는 여러 줄의 User-agent로 시작하고, 뒤에 약간의 Disallow와 Allow 줄을 추가합니다. 상세한 상황은 다음과 같습니다. User-agent: 이 항목의 값은 검색엔진 로봇의 이름을 설명하는 데 사용됩니다."robots.txt"파일에서 여러 개의 User-agent 기록이 있으면 여러 개의 로봇이 "robots.txt"의 제한을 받게 됩니다. 이 파일에 대해 말하자면 최소한 하나의 User-agent 기록이 있어야 합니다.이 항목의 값을 로 설정하면 모든 로봇에 유효합니다.'robots.txt'파일에서'User-agent:'라는 기록은 하나만 있을 수 있습니다."robots.txt"파일에 "User-agent: SomeBot"과 약간의 Disallow, Allow 줄을 넣으면, "SomeBot"이라는 이름은 "User-agent: SomeBot"뒤에 있는 Disallow와 Allow 줄에만 제한됩니다.Disallow: 이 항목의 값은 접근하기를 원하지 않는 URL 그룹을 설명하는 데 사용됩니다. 이 값은 완전한 경로일 수도 있고, 경로의 비어 있는 접두사일 수도 있습니다. Disallow 항목의 값으로 시작하는 URL은robot에 접근하지 않습니다.예를 들어 "Disallow:/help"는 robot 액세스/help를 금지합니다.html、/helpabc.html、/help/index.html, "Disallow:/help/"는 로봇이/help에 접근할 수 있도록 합니다.html、/helpabc.html,/help/index에 접근할 수 없습니다.html."Disallow:"설명은 로봇이 이 사이트의 모든 URL에 접근할 수 있도록 합니다. "/robots.txt"파일에 최소한 Disallow 기록이 있어야 합니다."/robots.txt"가 존재하지 않거나 빈 파일이면 모든 검색엔진 robot에 대해 이 사이트는 개방됩니다.Allow: 이 항목의 값은 액세스할 URL 그룹을 설명하는 데 사용됩니다. Disallow 항목과 비슷합니다. 이 값은 완전한 경로일 수도 있고 경로의 접두사일 수도 있습니다. Allow 항목의 값으로 시작하는 URL은 로봇이 접근할 수 있도록 합니다.예를 들어 "Allow:/hibaidu"는 로봇이/hibaidu에 접근할 수 있도록 합니다.htm、/hibaiducom.html、/hibaidu/com.html.한 사이트의 모든 URL은 기본적으로 Allow이기 때문에 Allow는 일반적으로 Disallow와 함께 사용되며 일부 웹 페이지에 접근할 수 있고 다른 모든 URL에 접근할 수 없는 기능을 실현한다.특히 주의해야 할 것은 Disallow와 Allow 줄의 순서는 의미가 있습니다. 로봇은 첫 번째 일치하는 Allow나 Disallow 줄에 따라 URL에 접근할지 여부를 결정합니다.''및'$'사용: Baiduspider는 URL과 일치하는 어댑터''과'$'를 사용할 수 있습니다."$"은 행 끝 문자와 일치합니다."*"는 0 개 이상의 문자와 일치합니다.

좋은 웹페이지 즐겨찾기