파충류와 반파충류
3864 단어 작은 매듭
기어오르다
파충류 목적:
1. 데이터를 가져옵니다.회사의 데이터베이스를 채우면 데이터 테스트를 할 수 있다.직접 로그인도 가능합니다.
2. 파충류를 통해 대량의 데이터를 얻는다.검색엔진 만들기
3. 파충류를 통해 데이터를 추출하여 데이터 수집과 데이터 분석 작업
4. 파충류를 통해 데이터를 추출하여 훈련 모형을 만들고 인공지능 로봇 훈련을 한다.
반파충목적:
1. 일부 초급 파충류를 대상으로 간단하고 난폭하며 서버의 압력을 고려하지 않아 서버가 마비될 수 있다
2. 제어할 수 없는 파충류에 대해 파충류의 수가 비교적 많기 때문에 파충류 프로그램을 끄는 것을 잊어버리면 서버의 압력이 너무 클 수 있다
3. 동업자가 회사의 중요한 데이터를 탈취하는 것을 방지하고 동업자의 악의적인 경쟁을 방지한다
2. 역기어오르기 전략
1. User-Agent를 통한 액세스 제어
브라우저든 파충류 프로그램이든 서버에 네트워크 요청을 할 때 헤더 파일을 보냅니다. 예를 들어
Accept:text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,/;q=0.8
Accept-Encoding:gzip, deflate, sdch, br
Accept-Language:zh-CN,zh;q=0.8,en;q=0.6,zh-TW;q=0.4,da;q=0.2,la;q=0.2
Cache-Control:max-age=0
Connection:keep-alive
Cookie: **********
Host:http://zhuanlan.zhihu.com
Referer:Ehco -
Upgrade-Insecure-Requests:1
User-Agent:Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_4) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/57.0.2987.133 Safari/537.36
Query String Parameters
view source
view URL encoded
이 안의 대다수 필드는 브라우저가 서버에 신분을 표시하는 데 사용되는 파충류 프로그램에 있어서 가장 주의해야 할 필드는 다음과 같다. User-Agent의 많은 사이트들이user-agent 화이트리스트를 만들고 정상적인 범위에 속하는user-agent만 정상적으로 접근할 수 있다.
해결 방법:
해결 방법:
그리고 비교적 일반적인 반파충류 전략도 있다. 쿠키를 통해 정보를 캡처하는 것을 제한한다. 예를 들어 우리가 모의 로그인을 한 후에 어떤 페이지 정보를 얻으려면 모의 로그인 후에 모든 페이지를 잡을 수 있다고 생각하지 마라. 때로는 중간 페이지를 요청해서 특정한 쿠키를 받아야 우리가 필요로 하는 페이지를 잡을 수 있다.
해결 방법:
5, JS 렌더링 페이지
또 다른 흔히 볼 수 있는 반파충류 모델은 JS로 페이지를 렌더링하는 것이다.무슨 뜻일까요? 바로 되돌아오는 페이지는 직접 요청하는 것이 아니라 일부분은 JS가 DOM을 조작해서 얻을 수 있기 때문에 그 부분의 데이터는 저희도 얻을 수 없습니다.
해결 방법:
6. 사용자 이름 또는 암호 암호화 처리
최근에 막 발견된 반파충류 기술: 귀속 IP.무슨 뜻일까요? 전체 요청 프로세스는 하나의 IP로 접근해야 한다는 뜻입니다. IP를 바꾸면 로그인에 실패합니다.
해결 방법:
7, IP 바인딩
최근에 막 발견된 반파충류 기술: 귀속 IP.무슨 뜻일까요? 전체 요청 프로세스는 하나의 IP로 접근해야 한다는 뜻입니다. IP를 바꾸면 로그인에 실패합니다.
해결 방법:
해결 방법은 없고 IP 하나만 로그인할 수 있습니다.
8. 페이지를 모두 그림으로 변환
가장 징그럽고 징그러운 반파충류는 페이지를 모두 그림으로 바꾸고, 당신이 잡은 내용은 모두 그림에 숨겨져 있습니다.내용을 추출하고 싶으면 생각하지 마라.
해결 방법:
이 내용에 흥미가 있습니까?
현재 기사가 여러분의 문제를 해결하지 못하는 경우 AI 엔진은 머신러닝 분석(스마트 모델이 방금 만들어져 부정확한 경우가 있을 수 있음)을 통해 가장 유사한 기사를 추천합니다:
thymeleaf의th:each용법하나.th:eath 교체 집합 사용법: 2.다음 변수 반복 사용법: 상태 변수는 th로 정의됩니다. 각 속성과 다음 데이터가 포함됩니다. 1.현재 교체 인덱스, 0부터 시작합니다.이것은 색인 속성입니다.index 2...
텍스트를 자유롭게 공유하거나 복사할 수 있습니다.하지만 이 문서의 URL은 참조 URL로 남겨 두십시오.
CC BY-SA 2.5, CC BY-SA 3.0 및 CC BY-SA 4.0에 따라 라이센스가 부여됩니다.