~1천만 도메인의 HTTP 헤더 - 개방형 데이터 세트

recent DjangoCon Europe talk의 경우 Python Web Spider를 작성하여 top 10,000,000 domains (based on Open PageRank data)의 HTTP 헤더를 분류했습니다.

작성 시점에 최소 한 번은 천만 개의 도메인을 모두 스파이더링했습니다.

스파이더 통계

7,187,532가 "성공적으로"완료되었습니다. 즉, 4xx 및 5xx 범위의 오류 코드를 포함하여 모든 HTTP 상태 코드가 포함된 HTTP 응답을 반환했습니다.

6,280,590의 HTTP 상태는 200입니다.

766,584의 HTTP 상태가 4xx 범위에 있음

137,100의 HTTP 상태가 5xx 범위에 있음

368의 HTTP 상태는 >= 600입니다(가장 높은 값은 999, 아래 스크린샷 참조).

2,812,468개의 도메인이 실패했습니다. DNS 오류, 시간 초과 등. 앞으로 며칠 동안 이 도메인을 계속 다시 시도하겠습니다(최대 5회 시도).

데이터 세트는 a single MongoDB Atlas 컬렉션에 있으며 현재 크기는 8GB를 약간 넘습니다.

모두에게 공개하고 무료로 액세스할 수 있도록 하겠습니다! 😃

문서 스키마

각 문서에는 도메인, Open PageRank, 크롤링된 날짜/시간 및 수신된 모든 HTTP 헤더가 포함됩니다.

[
    {
        _id: "5f31ee822ff3764aa9c446d4",
        rank: 610,
        domain: "dev.to",
        pageRank: { $numberDecimal: "6.70" },
        processing: false,
        completed: true,
        attempts: 1,
        last_updated: "2020-09-15T03:29:00.447Z",
        headers: {
            "Content-Length": "71618",
            Server: "Cowboy",
            "X-Frame-Options": "SAMEORIGIN",
            "X-Xss-Protection": "1; mode=block",
            "X-Content-Type-Options": "nosniff",
            "X-Download-Options": "noopen",
            "X-Permitted-Cross-Domain-Policies": "none",
            "Referrer-Policy": "strict-origin-when-cross-origin",
            "Cache-Control": "public, no-cache",
            "X-Accel-Expires": "600",
            "Content-Type": "text/html; charset=utf-8",
            "Content-Encoding": "gzip",
            Etag: 'W/"9e7cc41631c8a0ba2a886cdb2b844b40"',
            "Content-Security-Policy": "",
            "X-Request-Id": "bf2b33f2-d4e2-4b5d-a3b0-15717705278d",
            "X-Runtime": "0.150673",
            Via: "1.1 vegur",
            "Access-Control-Allow-Origin": "*",
            "Accept-Ranges": "bytes",
            Date: "Tue, 15 Sep 2020 03:29:00 GMT",
            Age: "327",
            "X-Served-By": "cache-den19625-DEN, cache-jax20947-JAX",
            "X-Cache": "HIT, MISS",
            "X-Cache-Hits": "1, 0",
            "X-Timer": "S1600140540.196933,VS0,VE155",
            Vary: "Accept-Encoding, X-Loggedin",
        },
        request_url: "https://dev.to",
        response_url: "https://dev.to",
        status: 200,
    },
]

발견할 것이 많은 재미있고 흥미로운 데이터 세트입니다. 그래서 저는 그것을 세상에 공개하게 되어 매우 기쁩니다.

우리Johns Hopkins University COVID-19 open dataset와 마찬가지로 Node, Python, Java 또는 Excel을 사용하든 상관없이 이 기능을 매우 쉽게 액세스할 수 있도록 만들고 싶습니다!

그러나 공개하기 전에 제한된 수의 사람들에게 액세스 권한을 제공하고 싶습니다.

액세스 요청

데이터를 쿼리하는 방법을 알고 싶습니다. 필요한 인덱스는 무엇입니까? 데이터를 쉽고 효율적으로 사용하기 위해 어떻게 구조화할 수 있습니까?

데이터 세트에 대한 조기 액세스를 원하시면 [email protected]으로 이메일을 보내주십시오.

Reference

이 문제에 관하여(~1천만 도메인의 HTTP 헤더 - 개방형 데이터 세트), 우리는 이곳에서 더 많은 자료를 발견하고 링크를 클릭하여 보았다 https://dev.to/aaronbassett/http-headers-from-10-million-domains-an-open-dataset-4fho

텍스트를 자유롭게 공유하거나 복사할 수 있습니다.하지만 이 문서의 URL은 참조 URL로 남겨 두십시오.

우수한 개발자 콘텐츠 발견에 전념 (Collection and Share based on the CC Protocol.)

좋은 웹페이지 즐겨찾기

개발자 우수 사이트 수집

개발자가 알아야 할 필수 사이트 100선 추천 우리는 당신을 위해 100개의 자주 사용하는 개발자 학습 사이트를 정리했습니다