콩잎을 파헤치는 최신 추천 도서

1714 단어
CSDN 선생님의 생방송 수업을 봤는데 콩판 평점이 가장 높은 250편의 영화를 참고해서 원본 코드를 읽고 자신을 본떠서 콩판 최신 도서를 만들었는데 한 페이지만 있어서 쉽게 구할 수 있었다.내가 찾은 것은 추천 도서의 기본 정보, 즉 페이지에서 볼 수 있는 정보를 모두 찾아낼 수 있다는 것이다.웹 페이지 소스 코드는 작은 차이가 있는데 좌우 양쪽의 도서 프로필 정보가 저장된 소스 코드 노드의 위치가 좀 다르다. 내가 코드를 넣었는데 그 중 하나가 주석이 떨어졌다.코드는 비교적 간단하다.
from requests.exceptions import RequestException from bs4 import BeautifulSoup import requests import re,time,json
def getPage(url):'''지정된 url 페이지 정보를 기어오르기''try: #요청 헤더 정보 headers 정의 = {'User-Agent':'User-Agent: Mozilla/5.0(Windows NT6.1;rv:2.0.1) Gecko/2010 10Firefox/4.0.1'
        }
    #     
    res = requests.get(url,headers=headers)
    #       ,       
    if res.status_code == 200:
        return res.text
    else:
        return None
except RequestException:
    return None

def parsePage (content): '' 웹 페이지의 내용을 분석하고 필드 결과를 되돌려줍니다 '# HTML 문서 doc = pq (content) # 웹 페이지의 모든 탭을 가져와 출력 탭 이름 items = doc ("div.detail-frame") # 봉인된 데이터를 옮겨다니며 for item in items로 되돌려줍니다.items(): yield {'책이름:'item.find('a').text(),'그림 출처:'item.find('a').attr('href'),'평점:'item.find('p.rating').text(),'저자:'item.find('colp.or-gray').text('),'소개':item.find('p.detail.text)(')
       # '      :'  :item.find("p").text(),
        
        }

def writeFile (content): '파일 쓰기 실행' print (content)
def main(): url = “https://book.douban.com/latest#print(url) html = getPage(url) # 데이터를 추출했는지 판단하고 해석 함수인 if html: for item in parsePage(html): writeFile(item)
if name == ‘main’:     main()     time.sleep(2)

좋은 웹페이지 즐겨찾기