Python PhishTank 기어 오 르 기(낚시 사이트 사용)
1813 단어 Python
1.웹 페이지 내용 찾기
page = urllib2.urlopen(url)
contents = page.read()
print(contents)
url 은 바로 당신 이 웹 페이지 주 소 를 얻 는 것 입 니 다.예 를 들 어 www.baidu.com 입 니 다.contents 는 바로 당신 이 웹 페이지 를 얻 은 내용,즉 웹 페이지 소스 코드 입 니 다.상기 세 줄 의 코드 는 한 웹 페이지 의 오 르 기 를 완성 할 수 있 습 니 다.매우 간단 합 니 다.보통 많은 웹 페이지 는 이런 방법 으로 오 를 수 있 지만 가끔 웹 페이지 의 차단 을 만 나 기 때문에 이것 은 안 됩 니 다.최근 에 제 가 PhishTank 이라는 사이트 주 소 를 찾 았 을 때 이 문 제 를 만 났 습 니 다.다음 과 같은 그림 입 니 다.
해결 방법 은 보통 여러 가지 가 있 습 니 다.1 http 요청 헤더 의 내용 을 추가 합 니 다.2 해당 사이트 의 API 사용
여기 서 저 는 사이트 의 API 를 사 용 했 습 니 다.PhishTank 사 이 트 를 예 로 들 어 사이트 의 관련 문 서 를 본 후에 App key 를 등록 하여 개발 문서 에 따라 원 하 는 내용 을 얻 었 습 니 다.-사이트 의 모든 낚시 사이트 의 url
1.PhishTank 사이트 의 개발 문서 url 에 따라 써 야 합 니 다.
http://data.phishtank.com/data/8bf7ccdbfb3eb4ad75996fe1d616efc4406f321cba361844b88402f3ee01c8cd/online-valid.csv
2 관 리 를 편리 하 게 하기 위해 서,우 리 는 이 얻 은 url 을 파일 에 기록 합 니 다.
4
page = urllib2.urlopen(url)
contents = page.read()
print(contents)
f = file("Content.txt" ,"w+" )
f.write(contents)
두 걸음 이상 지나 면 PhishTank 사이트 에 있 는 모든 낚시 사이트 의 URL 을 파일 에 기록 할 수 있 습 니 다.3 이 URL 에 대응 하 는 웹 페이지 의 내용 을 가 져 옵 니 다
주의해 야 할 점 3.1 일부 URL 에 대응 하 는 웹 페이지 의 내용 은 이미 없습니다.즉,404,3.2 그리고 일부 URL 에 대응 하 는 웹 페이지 의 내용 은 안전 하지 않 습 니 다.3.3 요청 시간 초과 문제 가 발생 할 수 있 습 니 다.우 리 는 이상 캡 처 로 모든 문 제 를 제거 합 니 다.코드 는 다음 과 같 습 니 다.
4.567913 이상 코드 는 url 에 대응 하 는 내용 을 각 파일 에 기록 합 니 다.
이상 은 제 가 지금 하고 있 는 일 들 입 니 다.데이터 수집 입 니 다.
이 내용에 흥미가 있습니까?
현재 기사가 여러분의 문제를 해결하지 못하는 경우 AI 엔진은 머신러닝 분석(스마트 모델이 방금 만들어져 부정확한 경우가 있을 수 있음)을 통해 가장 유사한 기사를 추천합니다:
Python의 None과 NULL의 차이점 상세 정보그래서 대상 = 속성 + 방법 (사실 방법도 하나의 속성, 데이터 속성과 구별되는 호출 가능한 속성 같은 속성과 방법을 가진 대상을 클래스, 즉 Classl로 분류할 수 있다.클래스는 하나의 청사진과 같아서 하나의 ...
텍스트를 자유롭게 공유하거나 복사할 수 있습니다.하지만 이 문서의 URL은 참조 URL로 남겨 두십시오.
CC BY-SA 2.5, CC BY-SA 3.0 및 CC BY-SA 4.0에 따라 라이센스가 부여됩니다.