Datawhale 제1 2 기 파티 학습 - Python 파충류 프로 그래 밍 실천 Task 04: 큰 작업: 뉴스 를 얻 기;높이 뽑다: 어떤 파충류

작업:

ajax 로드 알 아 보기

chrome 개발 자 도 구 를 통 해 네트워크 요청 을 모니터링 하고 분석

selenium 으로 파충류 완성

구체 적 인 절 차 는 다음 과 같다.https://news.qq.com/ 의 핫 이 슈 정선

의문:

url 요청 으로 얻 은 데 이 터 는 ajax 를 통 해 얻 은 것 이 라 고 어떻게 판단 합 니까? 이 진실 한 url 을 어떻게 압 니까?

ajax 가 얻 은 데이터 획득 에 어떤 팁 이 있 습 니까?

Beautiful Soup, etree, xpath 는 어떻게 더 유연 하 게 혼용 합 니까?

코드: (요구 에 미 달)

def get_page_source():
    # driver = webdriver.Chrome(".chromedriver.exe")
    driver = webdriver.Chrome()
    driver.get("https://news.qq.com/")
    time.sleep(2)
    page_source = driver.page_source
    soup = BeautifulSoup(page_source)
    # print(soup.prettify())
    ele_list = soup.select('.detail > h3 > a')
    # print(ele_list)
    for ele in ele_list:
        print(type(str(ele)), str(ele))
        # print(etree.HTML(str(ele)).xpath('text()'))

get_page_source()

이 내용에 흥미가 있습니까?

현재 기사가 여러분의 문제를 해결하지 못하는 경우 AI 엔진은 머신러닝 분석(스마트 모델이 방금 만들어져 부정확한 경우가 있을 수 있음)을 통해 가장 유사한 기사를 추천합니다:

Vue.js Firebase 배포 개요

Vue.js 프로젝트에 Firebase 도입(메일 주소 인증 기능)의 개요를 정리한다. (학습 용) Google이 운영하는 소셜 로그인이나 실시간 데이터베이스 기능을 제공하는 서비스(mBaaS). 인증 및 데이터 관...

텍스트를 자유롭게 공유하거나 복사할 수 있습니다.하지만 이 문서의 URL은 참조 URL로 남겨 두십시오.

CC BY-SA 2.5, CC BY-SA 3.0 및 CC BY-SA 4.0에 따라 라이센스가 부여됩니다.

좋은 웹페이지 즐겨찾기

개발자 우수 사이트 수집

개발자가 알아야 할 필수 사이트 100선 추천 우리는 당신을 위해 100개의 자주 사용하는 개발자 학습 사이트를 정리했습니다