파 이 썬 을 선택 하여 인터넷 파충류 의 장점 과 이 유 를 쓰 세 요.

인터넷 파충류 란 무엇 입 니까?
인터넷 파충 류 는 웹 페이지 를 자동 으로 추출 하 는 프로그램 으로 검색엔진 을 위해 인터넷 에서 웹 페이지 를 다운로드 하 는 것 이 검색엔진 의 중요 한 구성 이다.전통 적 인 파충 류 는 하나 또는 몇 개의 초기 페이지 의 URL 부터 시작 하여 초기 페이지 의 URL 을 얻 습 니 다.웹 페이지 를 캡 처 하 는 과정 에서 현재 페이지 에서 새로운 URL 을 추출 하여 대기 열 에 넣 고 시스템 의 일정한 정지 조건 을 만족 시 킬 때 까지 계속 합 니 다.
파충류 가 무슨 소 용이 있 습 니까?
  • 유 니 버 설 검색엔진 홈 페이지 수집 기 입 니 다.(google,baidu)
  • 수직 검색엔진 을 만 듭 니 다.
  • 과학 연구:온라인 인류 행위,온라인 사회 군 진화,인류 동력학 연구,계량 사회학,복잡 한 네트워크,데이터 발굴 등 분야 의 실증 연 구 는 모두 대량의 데 이 터 를 필요 로 한다.인터넷 파충 류 는 관련 데 이 터 를 수집 하 는 이기 이다.
  • 훔 쳐 보기,해 킹,스 팸 메 일 보 내기...
  • 파충 류 는 검색엔진 의 첫걸음 이자 가장 쉬 운 걸음 이다.

    •웹 페이지 수집
    •색인 생 성
    검색 정렬
    어떤 언어 로 파충 류 를 씁 니까?
    C,C++。효율 적 이 고 빠 르 며 유 니 버 설 검색엔진 이 전체 네트워크 를 기어 오 르 는 데 적합 하 다.단점,개발 이 느 리 고 쓰기 에 구리 고 길다.예 를 들 어 천 망 검색 소스 코드.
    스 크 립 트 언어:Perl,Python,Java,Ruby.간단 하고 배우 기 쉬 우 며 좋 은 텍스트 처 리 는 웹 페이지 내용 의 세밀 한 추출 을 편리 하 게 할 수 있 지만 효율 이 높 지 않 아 소량의 사이트 에 대한 초점 을 맞 추 는 데 적합 하 다.
    C#?(정보 관리 하 는 사람 이 좋아 하 는 언어 인 것 같다)
    왜 최종 적 으로 파 이 썬 을 선 택 했 습 니까?
  • 크로스 플랫폼 은 리 눅 스 와 windows 에 모두 좋 은 지 지 를 가지 고 있다.
  • 과학적 계산,수치 적합:Numpy,Scipy
  • 시각 화:2d:Matplotlib(그림 을 예 쁘 게 만 들 었 습 니 다),3d:Mayavi 2
  • 복잡 한 네트워크:Networkx
  • 통계:R 언어 인터페이스:Rpy
  • 대화 형 단말기
  • 사이트 의 빠 른 개발?
  • 간단 한 파 이 썬 파충류
    
    import urllib
    import urllib.request
    
    def loadPage(url,filename):
     """
       :  url    ,  html  ;
     :param url:
     :return:
     """
     request=urllib.request.Request(url)
     html1= urllib.request.urlopen(request).read()
     return html1.decode('utf-8')
    
    def writePage(html,filename):
     """
        html    
    
     :param html:           
     :return:
     """
     with open(filename,'w') as f:
      f.write(html)
     print('-'*30)
    def tiebaSpider(url,beginPage,endPage):
     """
              ,         url;
     :param url:
     :param beginPage:
     :param endPage:
     :return:
     """
     for page in range(beginPage,endPage+1):
      pn=(page - 1)*50
      fullurl=url+"&pn="+str(pn)
      print(fullurl)
      filename=' '+str(page)+' .html'
      html= loadPage(url,filename)
    
      writePage(html,filename)
    
    
    
    if __name__=="__main__":
     kw=input('             :')
     beginPage=int(input('      '))
     endPage=int(input('      '))
     url='https://tieba.baidu.com/f?'
     kw1={'kw':kw}
     key = urllib.parse.urlencode(kw1)
     fullurl=url+key
     tiebaSpider(fullurl,beginPage,endPage)
    파 이 썬 이 왜 인터넷 파충 류 를 쓰 는 지 에 대한 모든 이유 와 지식 입 니 다.읽 어 주시 고 응원 해 주 셔 서 감사합니다.

    좋은 웹페이지 즐겨찾기