robots.txt 파일이 취약합니까? 확인하고 보호하는 방법은 다음과 같습니다.

3137 단어 securityseowebdev
잘못 구성된 Robots.txt 파일은 해커를 위한 웹 사이트의 환영 신호와 같습니다.
효율적이고 안전한 robots.txt를 설정하는 방법을 살펴보겠습니다.

Robots.txt 파일이 취약할 수 있습니까? 예, 안전한 계정을 만드는 방법은 다음과 같습니다.
robots.txt 파일이 취약합니까? 확인하고 보호하는 방법은 다음과 같습니다.
Robots.txt를 조심하세요! 로봇에게 모든 것을 공개해서는 안 됩니다.

robots.txt가 무엇인가요?



실제로 robots.txt 파일 자체는 취약하지 않습니다.
robots.txt는 웹 로봇용 파일입니다. 웹 로봇 또는 웹 스파이더 및 크롤러는 콘텐츠를 수집하기 위해 웹을 검색하는 프로그램입니다. Google과 같은 검색 엔진 로봇은 색인을 생성하기 위해 웹 페이지 콘텐츠와 스패머 로봇look for email addresses 및 웹사이트의 기타 항목을 수집합니다.

웹 로봇은 모든 웹사이트의 기본 디렉토리(일반적으로 루트 도메인 또는 홈페이지)에서 robots.txt 파일을 찾습니다.

robots.txt 분석



robots.txt에 웹 로봇용 웹사이트에 대한 지침을 입력할 수 있습니다. 이러한 지침을 로봇 배제 프로토콜이라고 합니다.

robots.txt 파일의 각 행은 필드, 콜론 및 값으로 구성됩니다. 주석 앞에 # 문자가 있고 공백은 선택 사항입니다. 따라서 일반적인 구문은 다음과 같습니다.

<field>:<value><#optional-comment>


공통 필드는 다음과 같습니다.
  • user-agent : 규칙이 적용되는 크롤러를 식별합니다.
  • allow : 크롤링할 수 있는 URL 경로입니다.
  • disallow : 크롤링할 수 없는 URL 경로입니다.
  • noindex : 검색 엔진이 페이지를 색인화하지 못하도록 하는 비공식 지침
  • sitemap : 사이트맵의 전체 URL입니다.

  • 기본적으로 로봇은 모든 웹사이트 또는 적어도 그들이 선택한 만큼의 페이지를 크롤링하려고 시도합니다. 그러나 위의 지시문을 사용하여 웹사이트 크롤링에 대해 안내할 수 있습니다.allowdisallow는 크롤링할 수 있는 페이지와 크롤링할 수 없는 페이지에 대해 로봇에 지시하는 데 가장 많이 사용되는 지시어입니다.user-agent를 사용하여 규칙을 특정 사용자 에이전트(로봇)와 연결할 수 있습니다.

    예를 들어 아래 샘플 robots.txt를 고려하십시오.

    user-agent: *
    allow: /*
    
    user-agent: googlebot*
    disallow: /oldui/
    
    sitemap: https://example.com/sitemap.xml
    


    이 robots.txt는 모든 로봇( user-agent: * )이 모든 URL( allow: /* )을 크롤링할 수 있음을 의미합니다. 그러나 Google 봇( user-agent: googlebot* )은 /oldui/ URL을 크롤링할 수 없습니다. 이 샘플에는 사이트맵에 대한 링크도 포함되어 있습니다.

    악의 둥지


    disallownoindex는 일반적으로 잘못 이해됩니다. Google과 로봇으로부터 페이지를 숨기기 위해 이 두 가지 지시문을 사용하는 것이 좋은 생각인 것 같습니다. 그러나 진실은 이러한 지시가 모든 웹 로봇에 의해 존중되지 않는다는 것입니다. robots.txt는 Google 봇과 공격자 모두가 액세스할 수 있는 공개 파일이라는 점을 명심해야 합니다.

    따라서 robots.txt 파일에 disallow: /admin/와 같은 것을 입력하면 실제로 웹사이트 관리 섹션의 URL이 표시됩니다.

    robots.txt 파일에 웹사이트의 웹 페이지를 추가하면 해당 파일은 웹사이트의 홈페이지처럼 전체 인터넷에서 액세스하게 됩니다. 따라서 robots.txt는 가능한 사물함이 아닙니다hide your secrets.

    공개 웹 페이지가 있지만 인덱싱되어 검색 결과에 표시되는 것을 원하지 않는 경우 disallow 지시문을 사용할 수 있습니다.

    결론



    robots.txt는 웹사이트의 로봇 방문자 경험을 최적화하기 위한 좋은 도구입니다. 그러나 이것은 로봇만을 위한 것이 아니며 모든 로봇이 친절한 것은 아닙니다. 따라서 robots.txt 파일에 민감한 정보를 입력하지 마십시오. SmartScanner, the web vulnerability scanner 을 사용하여 robots.txt에 민감한 정보 유출이 있는지 테스트할 수 있습니다. 무료이며 간편합니다. 웹 사이트 주소를 입력하고 스캔을 누르십시오.

    좋은 웹페이지 즐겨찾기