Datawhale 제1 2 기 파티 학습 - Python 파충류 프로 그래 밍 실천 Task 04: 큰 작업: 뉴스 를 얻 기;높이 뽑다: 어떤 파충류

작업:
  • ajax 로드 알 아 보기
  • chrome 개발 자 도 구 를 통 해 네트워크 요청 을 모니터링 하고 분석
  • selenium 으로 파충류 완성
  • 구체 적 인 절 차 는 다음 과 같다.https://news.qq.com/ 의 핫 이 슈 정선
  • 의문:
  • url 요청 으로 얻 은 데 이 터 는 ajax 를 통 해 얻 은 것 이 라 고 어떻게 판단 합 니까? 이 진실 한 url 을 어떻게 압 니까?
  • ajax 가 얻 은 데이터 획득 에 어떤 팁 이 있 습 니까?
  • Beautiful Soup, etree, xpath 는 어떻게 더 유연 하 게 혼용 합 니까?

  • 코드: (요구 에 미 달)
    def get_page_source():
        # driver = webdriver.Chrome(".chromedriver.exe")
        driver = webdriver.Chrome()
        driver.get("https://news.qq.com/")
        time.sleep(2)
        page_source = driver.page_source
        soup = BeautifulSoup(page_source)
        # print(soup.prettify())
        ele_list = soup.select('.detail > h3 > a')
        # print(ele_list)
        for ele in ele_list:
            print(type(str(ele)), str(ele))
            # print(etree.HTML(str(ele)).xpath('text()'))
    
    get_page_source()
    

    좋은 웹페이지 즐겨찾기