~1천만 도메인의 HTTP 헤더 - 개방형 데이터 세트

recent DjangoCon Europe talk의 경우 Python Web Spider를 작성하여 top 10,000,000 domains (based on Open PageRank data)의 HTTP 헤더를 분류했습니다.

작성 시점에 최소 한 번은 천만 개의 도메인을 모두 스파이더링했습니다.

스파이더 통계


  • 7,187,532가 "성공적으로"완료되었습니다. 즉, 4xx 및 5xx 범위의 오류 코드를 포함하여 모든 HTTP 상태 코드가 포함된 HTTP 응답을 반환했습니다.
  • 6,280,590의 HTTP 상태는 200입니다.
  • 766,584의 HTTP 상태가 4xx 범위에 있음
  • 137,100의 HTTP 상태가 5xx 범위에 있음
  • 368의 HTTP 상태는 >= 600입니다(가장 높은 값은 999, 아래 스크린샷 참조).
  • 2,812,468개의 도메인이 실패했습니다. DNS 오류, 시간 초과 등. 앞으로 며칠 동안 이 도메인을 계속 다시 시도하겠습니다(최대 5회 시도).



  • 데이터 세트는 a single MongoDB Atlas 컬렉션에 있으며 현재 크기는 8GB를 약간 넘습니다.



    모두에게 공개하고 무료로 액세스할 수 있도록 하겠습니다! 😃

    문서 스키마



    각 문서에는 도메인, Open PageRank, 크롤링된 날짜/시간 및 수신된 모든 HTTP 헤더가 포함됩니다.

    [
        {
            _id: "5f31ee822ff3764aa9c446d4",
            rank: 610,
            domain: "dev.to",
            pageRank: { $numberDecimal: "6.70" },
            processing: false,
            completed: true,
            attempts: 1,
            last_updated: "2020-09-15T03:29:00.447Z",
            headers: {
                "Content-Length": "71618",
                Server: "Cowboy",
                "X-Frame-Options": "SAMEORIGIN",
                "X-Xss-Protection": "1; mode=block",
                "X-Content-Type-Options": "nosniff",
                "X-Download-Options": "noopen",
                "X-Permitted-Cross-Domain-Policies": "none",
                "Referrer-Policy": "strict-origin-when-cross-origin",
                "Cache-Control": "public, no-cache",
                "X-Accel-Expires": "600",
                "Content-Type": "text/html; charset=utf-8",
                "Content-Encoding": "gzip",
                Etag: 'W/"9e7cc41631c8a0ba2a886cdb2b844b40"',
                "Content-Security-Policy": "",
                "X-Request-Id": "bf2b33f2-d4e2-4b5d-a3b0-15717705278d",
                "X-Runtime": "0.150673",
                Via: "1.1 vegur",
                "Access-Control-Allow-Origin": "*",
                "Accept-Ranges": "bytes",
                Date: "Tue, 15 Sep 2020 03:29:00 GMT",
                Age: "327",
                "X-Served-By": "cache-den19625-DEN, cache-jax20947-JAX",
                "X-Cache": "HIT, MISS",
                "X-Cache-Hits": "1, 0",
                "X-Timer": "S1600140540.196933,VS0,VE155",
                Vary: "Accept-Encoding, X-Loggedin",
            },
            request_url: "https://dev.to",
            response_url: "https://dev.to",
            status: 200,
        },
    ]
    


    발견할 것이 많은 재미있고 흥미로운 데이터 세트입니다. 그래서 저는 그것을 세상에 공개하게 되어 매우 기쁩니다.

    우리Johns Hopkins University COVID-19 open dataset와 마찬가지로 Node, Python, Java 또는 Excel을 사용하든 상관없이 이 기능을 매우 쉽게 액세스할 수 있도록 만들고 싶습니다!

    그러나 공개하기 전에 제한된 수의 사람들에게 액세스 권한을 제공하고 싶습니다.

    액세스 요청



    데이터를 쿼리하는 방법을 알고 싶습니다. 필요한 인덱스는 무엇입니까? 데이터를 쉽고 효율적으로 사용하기 위해 어떻게 구조화할 수 있습니까?

    데이터 세트에 대한 조기 액세스를 원하시면 [email protected]으로 이메일을 보내주십시오.

    좋은 웹페이지 즐겨찾기