사이트 맵 101

우리가 인터넷에서 각종 사물을 검색하고 관련 결과를 얻는 능력은 상당히 큰 기술적 성과이다. 특히 검색 엔진이 달성해야 할 규모에 있어서.그들은 사이트와 내용의 대형 인덱스를 만들어야 한다. 이렇게 하면are 조회를 처리하고 우리에게 필요한 내용을 제공할 수 있다.
I "Robots.txt"파일 및 인터넷 파충류와 사이트 운영자 간의 관계.이것은 인터넷 파충류와 사이트 운영자가 사이트에서 색인해서는 안 되는 내용에 대해 의사소통을 할 수 있도록 도와주는 어려운 문제이다.
또 다른 난제는 사이트 지도이다. 이것은 인터넷 파충류와 검색엔진에 당신의 사이트의 모든 페이지의 파일을 알려주는 데 도움을 주는 것이다. 이것은 마지막 업데이트 시간과 업데이트 빈도이다.내용 중의 링크를 통해서만 페이지를 캡처하는 것은 불가능하다.

약사


아마도 we have Google to thank 2005년 초부터 사이트 지도 파일의 개념이 시작된 것은 이상할 것이 못 된다.

2006년 11월Yahoo and Microsoft joined Google in support of the standard과 모델"Sitemap 0.9".
얼마 후, 그들은 연합하여 "로봇s.txt"파일의 비표준 기능을 지원하여 그들이 사이트 지도의 위치를 가리키는 것을 허락한다고 발표했다.
예를 들어, 이 위치는 사이트 맵의 위치를 가리킵니다.
# See http://www.robotstxt.org/robotstxt.html for documentation on how to use the robots.txt file
#
# To ban all spiders from the entire site uncomment the next two lines:
# User-agent: *
# Disallow: /

Sitemap: https://thepracticaldev.s3.amazonaws.com/sitemaps/sitemap.xml.gz

형식


XML, TXT, RSS 등 3가지 스타일 웹 맵

XML 사이트 맵


이것은 당신이 실제로 사용하는 유일한 형식의 사이트 지도일 가능성이 높습니다. 규범에 정의된 핵심 형식은 무엇입니까?즉, 모든 XML 사이트 지도가 같은 것은 아니다. 왜냐하면 두 가지 다른 유형이 있기 때문이다.

일반 사이트 맵 파일


많은 <url> 태그가 있어야 하지만 <loc>, <lastmod>, <changefreq><priority> 태그를 선택할 수 있습니다.<loc> 탭은 사이트의 페이지의 절대 URL일 뿐입니다.<lastmod> 레이블은 페이지의 신선도를 나타냅니다.파충류는 이 값에 따라 우선순위 정렬을 할 수 있지만, 지난번에 수정한 업데이트를 현재 날짜로 계속 업데이트해서 게임 시스템을 시도하는 것은 권장하지 않습니다.<changefreq> 라벨은 기어오르기의 지침일 뿐, 그것을'매시간'으로 설정하면 네트워크 기어오르기가 더욱 빈번하게 당신의 사이트를 기어갈 수 있다고 생각하지 마십시오.<priority> 라벨은 이 페이지가 다른 사이트에 비해 얼마나 중요한지 정의하는 것이 아니라 인터넷 파충류, 심지어 이 페이지에 대한 파충류의 중요성을 정의하는 데 쓰인다.설정되지 않은 경우 기본값은 "0.5"입니다.
사양의 XML 사이트 맵 예:
<?xml version="1.0" encoding="UTF-8"?>
<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
   <url>
      <loc>http://www.example.com/</loc>
      <lastmod>2005-01-02</lastmod>
      <changefreq>monthly</changefreq>
      <priority>0.8</priority>
   </url>
   <url>
      <loc>http://www.example.com/catalog?item=12&amp;desc=vacation_hawaii</loc>
      <changefreq>weekly</changefreq>
   </url>
   <url>
      <loc>http://www.example.com/catalog?item=73&amp;desc=vacation_new_zealand</loc>
      <lastmod>2004-12-23</lastmod>
      <changefreq>weekly</changefreq>
   </url>
   <url>
      <loc>http://www.example.com/catalog?item=74&amp;desc=vacation_newfoundland</loc>
      <lastmod>2004-12-23T18:00:15+00:00</lastmod>
      <priority>0.3</priority>
   </url>
   <url>
      <loc>http://www.example.com/catalog?item=83&amp;desc=vacation_usa</loc>
      <lastmod>2004-11-23</lastmod>
   </url>
</urlset>

사이트 맵 인덱스 파일


이 기준에 따라 일반 사이트 맵 파일은 50000개의 URL로 제한되며 최대 크기는 50MB입니다.비록 나는 반드시 이런 제한이 여전히 존재한다고 생각하지 않지만, 그것은 확실히 사이트 지도 색인 파일의 흥행을 야기했다.
이 파일들은 기본적으로 일반적인 사이트 지도 파일처럼 보이지만 기본적으로 다른 사이트 지도를 가리키는 것일 뿐이다.필요한 태그 <sitemap> 와 선택할 수 있는 태그 <loc> 를 포함하는 태그가 많습니다.
사양의 색인 사이트 맵 예:
<?xml version="1.0" encoding="UTF-8"?>
<sitemapindex xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
  <sitemap>
    <loc>http://www.example.com/sitemap1.xml.gz</loc>
    <lastmod>2004-10-01T18:23:17+00:00</lastmod>
  </sitemap>
  <sitemap>
    <loc>http://www.example.com/sitemap2.xml.gz</loc>
    <lastmod>2004-01-01</lastmod>
  </sitemap>
</sitemapindex>

TXT 사이트 맵


이런 유형의 사이트 맵은 사실상 XML 사이트 맵의 많은 기능을 삭제했다. 예를 들어 지난번 수정 날짜나 페이지 업데이트 빈도수 등이다.
이 형식은 다른 데이터가 필요 없이 색인을 원하는 모든 URL을 새 줄에 놓으면 됩니다.
http://www.example.com/
http://www.example.com/catalog?item=12&amp;desc=vacation_hawaii
http://www.example.com/catalog?item=73&amp;desc=vacation_new_zealand

RSS 사이트 맵


RSS 사이트 맵은 TXT 사이트 맵만큼 제한되어 있지 않지만 자신의 문제점도 있습니다. 예를 들어 최근 URL에 대한 정보만 제공하는 것입니다.<lastmod> 태그를 사용하여 색인할 URL을 정의하고 <link> 를 사용하여 마지막으로 수정한 시간을 정의할 수 있습니다.

사이트 맵의 미래


사이트 지도의 주요 규범은 바뀌지 않았지만 다른 유형의 사이트 지도가 개발 중이다. 예를 들어 video sitemaps, image sitemaps, 특수Google News sitemaps 등이다.
구글에도 announced support for multilingual sitemaps가 있는데 그 중에서 각 URL의 언어를 정의할 수 있다.
이러한 추가 사이트 맵 유형에 대한 지원은 주요 XML 사이트 맵보다 광범위하지 않습니다. 비록 미래에 변화가 발생할 수 있지만.

나는 한 가지 일을 썼다...


나의 앞의 몇 편의 문장은 정말 환영을 받았다. 왜냐하면 나의 업무는 라이브러리와 도구를 구축하고 나를 위해 문제를 해결하는 것이기 때문이다. 이 문장도 예외가 아니다.

Turners 소프트웨어 / SitemapTools 웹 맵 도구


C의sitemap(sitemap.xml) 해석 및 쿼리 라이브러리#


사이트 맵 도구


C에서 라이브러리를 조회하고 해석하는 사이트 맵(sitemap.xml)#



주요 기능

  • XML 사이트 맵 분석 및 sitemap index files
  • GZ 압축을 처리하는 XML 사이트 맵
  • TXT 사이트 맵 지원
  • 메모

  • 사이트 맵 표준을 실행하지 않음as described at sitemaps.org
  • 사이트 맵 비검증
  • RSS 사이트 맵이 지원되지 않음
  • 인스턴스


    TurnerSoftware 를 사용합니다.SitemapTools;
    var sitemapQuery=new sitemapQuery();
    var sitemap Entries = sitemapQuery를 기다립니다.GetAllSitemapsForDomainAsync(“example.org”);
    View on GitHub
    나는 실제 해석이 필요한 프로젝트가 하나 있다. 내가 일하고 있는 사이트의 지도 파일을 찾고 기존의 모든 것을 찾으려고 노력한다.NET 라이브러리는 이렇게 합니다.최신 버전의 my library는 제 자신"Robots.txt" parsing library(사이트 맵 파일 발견에 사용)을 바탕으로 XML 사이트 맵(일반 및 색인 파일)과 TXT 사이트 맵을 지원합니다.
    이 라이브러리와 나의'Robots.txt'해석 라이브러리는 사실상 세 번째 라이브러리를 향해 구축된 것이다. 나는 앞으로 이 라이브러리에 관한 글을 한 편 쓸 것이다.

    추가 정보


  • sitemaps.org: 형식의 공식 사이트

  • "Sitemaps" on Wikipedia: 사이트 맵과 확장 기능에 대한 자세한 정보를 제공합니다.
  • 좋은 웹페이지 즐겨찾기