사이트 수집 방지 이론 분석 및 10 가지 방법 대책 1/2 페이지

공통점:a.둘 다 웹 페이지 소스 코드 를 직접 캡 처 해 야 효과 적 인 작업 을 할 수 있 습 니 다.b.이들 단 위 는 시간 내 에 방문 한 사이트 내용 을 여러 번 캡 처 합 니 다.c.거시적인 측면 에서 볼 때 이들 의 IP 는 모두 변동 할 것 이다.d.둘 다 인내심 없 이 웹 페이지 에 대한 암호 화(검증)를 풀 수 있 습 니 다.예 를 들 어 웹 페이지 내용 은 js 파일 을 통 해 암호 화 됩 니 다.예 를 들 어 인증 코드 를 입력 해 야 내용 을 조회 할 수 있 습 니 다.예 를 들 어 로그 인해 야 내용 에 접근 할 수 있 습 니 다.다른 점:        검색엔진 파충 류 는 먼저 전체 웹 페이지 소스 스 크 립 트 와 스타일,html 태그 코드 를 무시 한 다음 에 나머지 문자 부분 에 대해 절 어 문법 구법 분석 등 일련의 복잡 한 처 리 를 한다.한편,수집 기 는 html 태그 특징 을 통 해 필요 한 데 이 터 를 캡 처 하고 채집 규칙 을 만 들 때 목표 내용 의 시작 표지 가 어떻게 끝 나 는 지 작성 해 야 합 니 다.그러면 필요 한 내용 을 찾 을 수 있 습 니 다.또는 특정 웹 페이지 에 대해 특정한 정규 표현 식 을 만들어 필요 한 내용 을 선별 합 니 다.시작 표지 든 정규 표현 식 이 든 html 태그(웹 구조 분석)와 관련 됩 니 다.그 다음 에 채집 방지 방법 1.IP 주소 단위 의 시간 을 제한 하 는 방문 횟수 분석 을 제시 했다.1 초 안에 같은 사 이 트 를 5 번 방문 할 수 있 는 사람 은 아무 도 없다.프로그램 방문 이 아 닌 이런 취향 이 있 으 면 검색엔진 파충류 와 싫어 하 는 수집 기 만 남 았 다.단점:이 역시 검색엔진 이 사이트 의 수록 에 적용 되 는 사 이 트 를 막 을 수 있다.검색엔진 에 의존 하지 않 는 사이트 수집 기 는 어떻게 할 것 인가?단위 시간의 방문 횟수 를 줄 이 고 채집 효율 을 낮 출 것 이다.단점:단점 은 없 는 것 같 습 니 다.바로 역장 이 적용 사이트 에 바 쁜 것 같 습 니 다.모든 사이트,그리고 역장 은 구 글 이나 바 이 두 의 로봇 수집 기 가 어떻게 하 는 지 알 수 있 습 니 다.게릴라 전 을 하 는 것 이 죠!ip 대 리 를 이용 하여 채집 을 한 번 씩 바 꾸 지만 수집 기의 효율 과 네트워크 속 도 를 낮 출 수 있 습 니 다.3.js 를 이용 하여 웹 페이지 내용 을 암호 화 합 니 다.참고:이 방법 은 접 해 본 적 이 없습니다.다만 다른 곳 에서 볼 때 분석 할 필요 가 없습니다.검색엔진 파충류 와 수집 기 통 살 적용 사이트:검색엔진 과 수집 기 를 극도로 싫어 하 는 사이트 수집 기 는 이렇게 할 것 입 니 다.당신 이 그렇게 강하 면 그 는 당신 을 채취 하지 않 을 것 입 니 다.웹 페이지 에 사이트 저작권 이나 랜 덤 스 팸 문 자 를 숨 깁 니 다.이러한 문자 스타일 은 css 파일 에 적 혀 있 습 니 다.채집 을 방지 할 수 는 없 지만 수집 한 내용 을 사이트 의 저작권 설명 이나 스 팸 문자 로 가득 채 울 수 있 습 니 다.일반 수집 기 는 css 파일 을 동시에 수집 하지 않 기 때문에 그 문자 들 은 스타일 이 없 으 면 표 시 됩 니 다.적용 사이트:모든 사이트 수집 기 는 어떻게 합 니까?저작권 문자 에 대해 서 는 잘 하고 교체 합 니 다.무 작위 쓰레기 문자 에 대해 서 는 어 쩔 수 없 이 부지런 해 졌 다.5.사용자 가 로그 인해 야 사이트 내용 분석 을 방문 할 수 있 습 니 다.검색엔진 파충 류 는 이러한 유형의 사이트 에 대해 로그 인 프로그램 을 설계 하지 않 습 니 다.수집 기 는 한 사이트 에 대해 모 의 사용자 가 로그 인하 여 양식 을 제출 하 는 행 위 를 설계 할 수 있다 고 한다.적용 사이트:검색엔진 을 극도로 싫어 하 며 대부분의 수집 기 를 막 으 려 는 사이트 수집 기 는 어떻게 할 것 인가?사용자 로그 인 제출 폼 행 위 를 작성 하 는 모듈 6.스 크 립 트 언어 로 페이지(페이지 숨 기기)분석 을 하 는 것 인가?아니면 그 말 인가?검색엔진 파충 류 는 각종 사이트 의 숨겨 진 페이지 를 분석 하지 않 고 검색엔진 이 수록 하 는 데 영향 을 미친다.그러나 채집 자 는 채집 규칙 을 작성 할 때 대상 웹 페이지 코드 를 분석 하고 스 크 립 트 지식 을 아 는 사람 은 페이지 의 실제 링크 주 소 를 알 수 있 습 니 다.적용 사이트:검색엔진 의존 도가 높 지 않 은 사이트,그리고 당신 을 수집 하 는 사람 은 스 크 립 트 지식 수집 기 가 어떻게 할 지 모 릅 니 다.채집 자가 어떻게 할 지 말 해 야 합 니 다.그 는 어차피 당신 의 웹 페이지 코드 를 분석 하 는 동시에 당신 의 페이지 스 크 립 트 를 분석 하 는 데 시간 이 얼마 걸 리 지 않 습 니 다.
1 2 다음 페이지 전문 을 읽다

좋은 웹페이지 즐겨찾기