Python PhishTank 기어 오 르 기(낚시 사이트 사용)

1813 단어 Python
최근 에 Python 을 인터넷 파충류 로 사용 하고 있 습 니 다.낚시 사이트 의 일부 문제 와 관련 되 거나 Python 을 이용 하여 사 이 트 를 기어 오 르 는 데 발생 하 는 문제 라 고 할 수 있 습 니 다.Python 언어 에는 강력 한 공구 꾸러미 가 많 고 매우 강력 합 니 다.여기 서 웹 페이지 의 내용 을 기어 오 르 려 고 하기 때문에 제 가 선택 한 도 구 는 BeautifulSoup 이 고 강력 한 웹 페이지 분석 가방 입 니 다.
   1.웹 페이지 내용 찾기   
    page = urllib2.urlopen(url)
    contents = page.read()
    print(contents)
      url 은 바로 당신 이 웹 페이지 주 소 를 얻 는 것 입 니 다.예 를 들 어 www.baidu.com 입 니 다.
      contents 는 바로 당신 이 웹 페이지 를 얻 은 내용,즉 웹 페이지 소스 코드 입 니 다.상기 세 줄 의 코드 는 한 웹 페이지 의 오 르 기 를 완성 할 수 있 습 니 다.매우 간단 합 니 다.보통 많은 웹 페이지 는 이런 방법 으로 오 를 수 있 지만 가끔 웹 페이지 의 차단 을 만 나 기 때문에 이것 은 안 됩 니 다.최근 에 제 가 PhishTank 이라는 사이트 주 소 를 찾 았 을 때 이 문 제 를 만 났 습 니 다.다음 과 같은 그림 입 니 다.
해결 방법 은 보통 여러 가지 가 있 습 니 다.1 http 요청 헤더 의 내용 을 추가 합 니 다.2 해당 사이트 의 API 사용
여기 서 저 는 사이트 의 API 를 사 용 했 습 니 다.PhishTank 사 이 트 를 예 로 들 어 사이트 의 관련 문 서 를 본 후에 App key 를 등록 하여 개발 문서 에 따라 원 하 는 내용 을 얻 었 습 니 다.-사이트 의 모든 낚시 사이트 의 url
1.PhishTank 사이트 의 개발 문서 url 에 따라 써 야 합 니 다. 
http://data.phishtank.com/data/8bf7ccdbfb3eb4ad75996fe1d616efc4406f321cba361844b88402f3ee01c8cd/online-valid.csv
2  관 리 를 편리 하 게 하기 위해 서,우 리 는 이 얻 은 url 을 파일 에 기록 합 니 다.
4
    page = urllib2.urlopen(url)
    contents = page.read()
    print(contents)
    f = file("Content.txt" ,"w+" )
    f.write(contents)
두 걸음 이상 지나 면 PhishTank 사이트 에 있 는 모든 낚시 사이트 의 URL 을 파일 에 기록 할 수 있 습 니 다.
3 이 URL 에 대응 하 는 웹 페이지 의 내용 을 가 져 옵 니 다
주의해 야 할 점 3.1 일부 URL 에 대응 하 는 웹 페이지 의 내용 은 이미 없습니다.즉,404,3.2 그리고 일부 URL 에 대응 하 는 웹 페이지 의 내용 은 안전 하지 않 습 니 다.3.3 요청 시간 초과 문제 가 발생 할 수 있 습 니 다.우 리 는 이상 캡 처 로 모든 문 제 를 제거 합 니 다.코드 는 다음 과 같 습 니 다.
4.567913 이상 코드 는 url 에 대응 하 는 내용 을 각 파일 에 기록 합 니 다.
이상 은 제 가 지금 하고 있 는 일 들 입 니 다.데이터 수집 입 니 다.
    
    

좋은 웹페이지 즐겨찾기