고 층: 맨 윗부분 에서 모든 탭 을 가 져 옵 니 다. 난이도 가 간단 합 니 다 -- wh 04

2748 단어
고 층: 최상 위 필드 에서 모든 탭 가 져 오기
실험 설명
1. 환경 로그 인
비밀번호 없 이 자동 로그 인, 시스템 사용자 이름 shiyanlou
2. 환경 소개
이 실험 환경 은 데스크 톱 이 있 는 Ubuntu Linux 환경 을 사용 합 니 다. 실험 에 서 는 데스크 톱 프로그램 을 사용 합 니 다.
  • Xfce 터미널 (LXTerminal): Linux 명령 행 터미널, 열 면 Shell 환경 에 들 어 갑 니 다. Linux 명령
  • 을 사용 할 수 있 습 니 다.
  • Firefox: 브 라 우 저 는 프론트 인터페이스 가 필요 한 과정 에서 사용 할 수 있 습 니 다. 환경 에 쓰 인 HTML/JS 페이지 만 열 면 됩 니 다
  • GVim: 아주 좋 은 편집기 입 니 다. 가장 간단 한 용법 은 과정 Vim 편집기
  • 를 참고 할 수 있 습 니 다.
    3. 환경 사용
    GVim 편집기 로 실험 에 필요 한 코드 와 파일 을 입력 하고 터미널 실행 에 필요 한 명령 을 사용 합 니 다.
    실험 보고 서 는 개인 홈 페이지 에서 볼 수 있 습 니 다. 그 중에서 매번 실험의 캡 처 와 필기, 그리고 매번 실험의 효과 적 인 학습 시간 (실험 데스크 톱 에서 조작 하 는 시간 을 말 합 니 다. 조작 하지 않 으 면 시스템 은 멍 때 리 는 시간 으로 기록 합 니 다) 을 포함 합 니 다.이것들 은 모두 당신 이 배 운 진실성 증명 입 니 다.
    실험 건물 가상 머 신 은 python 2. X 와 python 3. X 버 전 을 가지 고 있 습 니 다. 이 실험 을 설치 할 필요 가 없습니다. python 2.7 버 전, 즉 기본 버 전 을 사용 하 는 것 을 권장 합 니 다.
    과정 소개
    이 절 은 이번 파충류 수업 인 기초 수업 의 마무리 작업 이다.
    미녀
    탭 일치 규칙
    실험 코드
    #!/usr/bin/env python
    # 上面这一行称为 shebang,它能找到当前环境的python的执行环境
    #文件名:meizi_tag
    import re
    import urllib2
    import meizi_series_nextpage
    
    def loadurl(url):
        try:
            conn = urllib2.urlopen(url,data=None,timeout=5)
            html = conn.read()
            return html
        except Exception:
            return ''
    
    #下面是主函数
    def meizi(url,path):
        #见上面的html代码截图,对比无误
        reTagContent = '.*?(.*?)'
        reTagUrl = ''
        print 'start open meiziwang'
        html = ''
        while True:
            html = loadurl(url)
            if html == '':
                print 'load', url,'error'
                continue
            else:
                break
        tagContent = re.findall(reTagContent, html, re.S)
        taglists = re.findall(reTagUrl, tagContent[0], re.S)
        #你仔细看会发现,链接又重,而且匹配、添加到列表,重复依旧在,所以啦,需要去重和排序,
        taglists = sorted(list(set(taglists)))
        for url in taglists:
            meizi_series_nextpage.nextpage(url,path)
    
    meizi('http://www.meizitu.com','/home/shiyanlou/Desktop/meizi')
    print 'Spider Stop'
    

    실험 건물 환경 캡 처 는 이 절 코드 만 실 행 했 을 뿐 이전 코드 를 호출 하지 않 았 다.
    실험 동 환경 캡 처 - 고 층
    고 - 중 - 저층, 3 층 코드 를 연결 하여 운행 합 니 다. 실험 건물 환경 캡 처 [가상 환경 에 있 습 니 다. 저 는 첫 번 째 태그, 첫 번 째 페이지, 첫 번 째 세트 그림 의 모든 그림 만 테스트 합 니 다]
    기초 파충류 - 테스트 캡 처
    4. 과정 기초 총화
    기초 과정의 총 결 은 다음 과 같다.
  • 이번 기초 파충 류 는 모두 세 개의 템 플 릿 os, urllib 2, re
  • 를 사용 했다.
  • 기본 적 인 네 개의 코드 파일, 코드 총 줄 수 는 200
  • 을 초과 하지 않 습 니 다.
  • 대부분의 코드 주요 처리 문제: 네트워크 문제, path 문제, url 링크 문제
  • 파일 이름 입 니 다. 제 가 준 접 두 사 는 없습니다. py
  • 를 추가 해 야 합 니 다.
  • 네트워크 이 용 률 (시스템 자체 모니터) 을 확인 해 보 세 요. 낮 죠?아직 최적화 가 안 돼 서
  • ...

  • 후속 실험 은 더욱 효율 적 인 파충 류 를 완성 할 것 이다.
    Python 3 튜 토리 얼, 프로젝트 사이트 - 전송 문

    좋은 웹페이지 즐겨찾기