~1천만 도메인의 HTTP 헤더 - 개방형 데이터 세트
10396 단어 showdevdatasciencewebdevmongodb
작성 시점에 최소 한 번은 천만 개의 도메인을 모두 스파이더링했습니다.
스파이더 통계
데이터 세트는 a single MongoDB Atlas 컬렉션에 있으며 현재 크기는 8GB를 약간 넘습니다.
모두에게 공개하고 무료로 액세스할 수 있도록 하겠습니다! 😃
문서 스키마
각 문서에는 도메인, Open PageRank, 크롤링된 날짜/시간 및 수신된 모든 HTTP 헤더가 포함됩니다.
[
{
_id: "5f31ee822ff3764aa9c446d4",
rank: 610,
domain: "dev.to",
pageRank: { $numberDecimal: "6.70" },
processing: false,
completed: true,
attempts: 1,
last_updated: "2020-09-15T03:29:00.447Z",
headers: {
"Content-Length": "71618",
Server: "Cowboy",
"X-Frame-Options": "SAMEORIGIN",
"X-Xss-Protection": "1; mode=block",
"X-Content-Type-Options": "nosniff",
"X-Download-Options": "noopen",
"X-Permitted-Cross-Domain-Policies": "none",
"Referrer-Policy": "strict-origin-when-cross-origin",
"Cache-Control": "public, no-cache",
"X-Accel-Expires": "600",
"Content-Type": "text/html; charset=utf-8",
"Content-Encoding": "gzip",
Etag: 'W/"9e7cc41631c8a0ba2a886cdb2b844b40"',
"Content-Security-Policy": "",
"X-Request-Id": "bf2b33f2-d4e2-4b5d-a3b0-15717705278d",
"X-Runtime": "0.150673",
Via: "1.1 vegur",
"Access-Control-Allow-Origin": "*",
"Accept-Ranges": "bytes",
Date: "Tue, 15 Sep 2020 03:29:00 GMT",
Age: "327",
"X-Served-By": "cache-den19625-DEN, cache-jax20947-JAX",
"X-Cache": "HIT, MISS",
"X-Cache-Hits": "1, 0",
"X-Timer": "S1600140540.196933,VS0,VE155",
Vary: "Accept-Encoding, X-Loggedin",
},
request_url: "https://dev.to",
response_url: "https://dev.to",
status: 200,
},
]
발견할 것이 많은 재미있고 흥미로운 데이터 세트입니다. 그래서 저는 그것을 세상에 공개하게 되어 매우 기쁩니다.
우리Johns Hopkins University COVID-19 open dataset와 마찬가지로 Node, Python, Java 또는 Excel을 사용하든 상관없이 이 기능을 매우 쉽게 액세스할 수 있도록 만들고 싶습니다!
그러나 공개하기 전에 제한된 수의 사람들에게 액세스 권한을 제공하고 싶습니다.
액세스 요청
데이터를 쿼리하는 방법을 알고 싶습니다. 필요한 인덱스는 무엇입니까? 데이터를 쉽고 효율적으로 사용하기 위해 어떻게 구조화할 수 있습니까?
데이터 세트에 대한 조기 액세스를 원하시면 [email protected]으로 이메일을 보내주십시오.
Reference
이 문제에 관하여(~1천만 도메인의 HTTP 헤더 - 개방형 데이터 세트), 우리는 이곳에서 더 많은 자료를 발견하고 링크를 클릭하여 보았다 https://dev.to/aaronbassett/http-headers-from-10-million-domains-an-open-dataset-4fho텍스트를 자유롭게 공유하거나 복사할 수 있습니다.하지만 이 문서의 URL은 참조 URL로 남겨 두십시오.
우수한 개발자 콘텐츠 발견에 전념 (Collection and Share based on the CC Protocol.)