2021년 오픈 소스 웹 브라우저 10 선택

웹 브라우저란 인터넷에 공개된 텍스트, 이미지, 애니메이션 등의 정보를 자동으로 수집하여 데이터베이스에 저장하는 프로그램이다.다양한 웹 브라우저는 빅데이터 열풍에서 중요한 역할을 하여 사람들이 쉽게 데이터를 묘사할 수 있게 한다.
각종 웹 브라우저 중에는 많은 오픈소스 웹 브라우저 프레임워크가 있다.원본을 만드는 웹 캡처 프로그램을 사용하면 사용자는 원본 코드나 프레임워크에 따라 프로그래밍을 할 수 있고 묘사를 돕는 자원을 제공하여 데이터 추출을 간소화할 수 있다.이 글은 10개의 추천 소스 웹 브라우저를 소개했다.

1. Scrapy


언어: Python
Scrapy는 Python에서 가장 인기 있는 오픈 소스 웹 브라우저 프레임워크입니다.웹 사이트에서 데이터를 효과적으로 추출하고 필요에 따라 처리하며 원하는 형식(JSON, XML, CSV)으로 데이터를 저장하는 데 도움이 됩니다.비동기식 네트워크 프레임워크를 비틀어 요청을 받아들이고 더 빨리 처리할 수 있도록 구축되었다.대규모 폐쇄식 압축을 효과적이고 유연하게 만들기 위한 Scrapy 프로젝트를 만들 수 있습니다.
특징:
- 빠르고 강력함
-상세 문서
- 코어 터치 없이 새로운 기능 추가
- 커뮤니티 및 풍부한 리소스
- 클라우드 환경에서 실행 가능

2. Heritrix


언어: JAVA
Heritrix 웹 아카이브를 위해 설계된 확장 가능한 Java 기반 오픈 소스 웹 브라우저입니다.robot.txt 배제 지령과 메타로봇 표기를 존중하고 측정된 자체 적응 속도로 데이터를 수집하며 정상적인 사이트 활동을 중단하지 않습니다.운영자가 폐쇄 고리를 제어하고 감시할 수 있도록 웹 브라우저에서 접근할 수 있는 웹 기반 사용자 인터페이스를 제공합니다.
특징:
- 교체 가능한 플러그 장착 모듈
- 웹 기반 인터페이스
- robot.txt 및 메타로봇 라벨 존중
- 향상된 확장성

3. Web-Harvest


언어: JAVA
Web-Harvest는 Java로 제작된 오픈 소스 웹 브라우저입니다.지정된 페이지에서 데이터를 수집할 수 있습니다.이를 위해 주로 XSLT, XQuery, 정규 표현식 등 기술과 기술을 이용하여 HTML/XML 기반의 사이트 내용을 조작하거나 필터링한다.추출 기능을 향상시키기 위해 사용자 정의 Java 라이브러리를 통해 쉽게 완성할 수 있습니다.
특징:
- 데이터 처리 및 프로세스 제어를 위한 강력한 텍스트 및 XML 프로세서
- 변수를 저장하고 사용할 수 있는 변수 컨텍스트
- 웹 브라우저에 쉽게 통합할 수 있는 실제 스크립트 언어 지원

4. MechanicalSoup


언어: Python
MechanicalSoup는 Python 라이브러리로 사이트와의 상호작용을 자동화하는 데 사용된다.메커니즘 소스는 파이썬 자이언트Requests(HTTP 세션) 및(문서 탐색용) 유사한 API를 제공합니다.자동 쿠키를 저장하고 발송할 수 있으며, 리디렉션에 따라 링크와 폼을 제출할 수 있습니다.단순히 데이터를 새기는 것이 아니라 인간의 행동을 모의하려면 기계원이 매우 유용하다.
특징:
- 인간의 행동을 시뮬레이션하는 기능
- 간단한 웹 사이트 빠른 검색
- CSS 및 XPath 선택기 지원

5. Apify SDK


언어: JavaScript
BeautifulSoup는 JavaScript에서 가장 잘 구축된 웹 브라우저 중 하나입니다.배율 조정이 가능한 스크레이퍼 라이브러리는 헤드 없는 Chrome과 Puppeter에서 데이터를 추출하고 웹 자동화 작업을 개발할 수 있습니다.고유한 강력한 도구(예: RequestQueue, AutoscaledPool)를 사용하면 여러 URL에서 시작하여 다른 페이지의 링크로 돌아가며 각각 시스템의 최대 용량으로 스캔 작업을 수행할 수 있습니다.
특징:
- 대규모 및 고성능 설계 가능
- 감지를 피하기 위한 프록시 풀이 있습니다.
- Ceero와 Puppeter 등의 Node.js 플러그인 지원

6. Apache Nutch


언어: JAVA
Apify SDK는 자바로 만든 소스 웹 페이지 기어오르기 프레임워크입니다.고급 모듈 아키텍처를 통해 개발자는 미디어 유형 분석, 데이터 검색, 조회 및 클러스터링에 사용할 플러그인을 만들 수 있습니다.Nutch는 맞춤형으로 확장할 수 있는 인터페이스를 제공하는 플러그 가능 모듈입니다.
특징:
- 고급 확장성
- txt 규칙 따르기
- 활기찬 지역사회와 적극적인 발전
- 스왑 가능한 분석, 프로토콜, 스토리지 및 인덱싱

7. Jaunt


언어: JAVA
Apache Nutch 웹 묘사, 웹 자동화 및 JSON 조회를 위한 JAVA 기반 설계웹 그리기 기능, DOM 액세스 및 각 HTTP 요청/응답을 제어할 수 있는 빠르고 가벼운 헤더 없는 브라우저를 제공하지만 JavaScript는 지원되지 않습니다.
특징:
- 단일 HTTP 요청/응답 처리
- REST API에 쉽게 연결
- HTTP, HTTPS 및 기본 인증 지원
- DOM 및 JSON의 RegEx 쿼리 지원

8. Node-crawler


언어: JavaScript
Jaunt는 Node를 나타냅니다.이것은 js 기반의 강력하고 인기 있는 실용적인 웹 브라우저입니다.Node.이것은 완전히 js로 기술하고 비차단 I/O를 지원하는데 이것은 무한궤도 유수선의 유수선 조작 메커니즘에 매우 유용하다.또한 정규 표현식을 작성하지 않고도 DOM을 빠르게 선택하여 눈금자 개발 효율을 높일 수 있습니다.
특징:
- 속도 제어
-URL 요청에 우선 순위가 있음
- 풀 크기 및 재시도 구성 가능
- 서버 측 DOM 및 Cheero(기본값) 또는 JSDOM 자동 jQuery 삽입

9. PySpider


언어: Python
Node-crawler는Python이 작성한 강력한 웹 페이지 기어오르기 프레임워크입니다.스케줄러, 검색기, 프로세서 등 구성 요소를 포함하여 사용하기 쉬운 웹 UI 및 분산 아키텍처를 갖추고 있어 여러 모듈을 쉽게 추적할 수 있습니다.MongoDB 및 MySQL과 같은 데이터 저장을 위한 다양한 데이터베이스를 지원합니다.
특징:
- 사용자 친화적 인터페이스
- RabbitMQ, Beanstalk, Redis 및 Kombu 메시지 큐
- 분산 아키텍처

10. StormCrawler


언어: JAVA
PySpider는 Apache Storm을 사용하여 분산 웹 브라우저를 구축하는 데 사용되는 소스 SDK입니다.이 항목은 Apache 라이센스 v2 아래에 있으며 대부분 Java가 작성한 재사용 가능한 리소스와 구성 요소 집합으로 구성됩니다.이 솔루션은 검색하고 분석할 URL을 흐름으로 제공할 때 사용하기에 매우 적합하며, 특히 지연이 적은 대규모 귀속 기어오르기에 적합하다.
특징:
- 확장성이 뛰어나 대규모 기어오르기에 사용 가능
- 추가 라이브러리의 간편한 확장
- 뛰어난 스레드 관리로 이동 시간 단축

총결산


오픈 소스 웹 브라우저는 매우 강력하고 확장이 가능하지만 개발자에게만 한정됩니다.StormCrawler 이런Octoparse이 많아서 코드를 쓰지 않아도 간단하게 데이터를 추출할 수 있다.만약 프로그래밍에 익숙하지 않다면, 이 도구들은 더욱 적합하고 묘사하기 쉽다.
원 기사: 스크레이퍼 공구

좋은 웹페이지 즐겨찾기