기록: 자작 소설 추천 프로그램 (1)
왕 이 운 의 노래 를 들 으 면서 예전 에 왕 이 운 화 때 nb 의 추천 알고리즘 이 있 었 던 것 같 아 요. 갑자기 그 부분 을 저 에 게 소설 을 추천 해 주 실 수 있 을까요?
한다 면 한다.
왕 이 클 라 우 드 의 추천 알고리즘 은 알 고 있 는 관련 대답 에서 볼 수 있 는데 이것 은 제 가 참고 한 잠재 적 인 인자 알고리즘 입 니 다.
그러면 먼저 첫 번 째 단 계 는 관련 데 이 터 를 얻 는 것 이다. 여기 서 저 는 출발점 에서 각 소설 과 관련 된 라벨 을 모든 소설의 '성분' 으로 하고 이 를 예비 용 으로 삼 았 습 니 다.한편, 사용자 에 대해 저 는 사용자 가 속 한 팬 등급 에 따라 관련 된 것 을 계산 하고 각 소설 에 대한 평 점 을 계산 합 니 다.
그렇다면 이 데 이 터 를 순조롭게 얻 기 위해 서 는 관련 홈 페이지 의 글 구 조 를 먼저 살 펴 봐 야 한다.
먼저 소설 부분 으로 이 페이지 의 시작 소설 에서 모든 소설 부분 을 볼 수 있다.
두 번 째 페이지 를 누 르 면 링크 구성 을 볼 수 있 습 니 다.
www.qidian.com/all?orderId=&style=1&pageSize=20&siteid=1&pubflag=0&hiddenField=0&page=2
그 과정 은 군더더기 없 이 py 의 beautifulsoup 으로 쉽게 얻 을 수 있 습 니 다. 코드 는 다음 과 같 습 니 다.
with requests.Session() as s:
r = s.get(url + str(page))
soup = BeautifulSoup(r.text)
try:
result = soup.body.find('div', class_="wrap").find('div', class_="all-pro-wrap box-center cf")\
.find('div', class_="main-content-wrap fl").find('div', class_="all-book-list")\
.find('ul', class_="all-img-list cf").find_all('li')
except AttributeError:
continue
for b in result:
bookids.append(b.find(class_='book-img-box').a['data-bid'])
그 id 는 bookids 에 저 장 됩 니 다.
소설의 id 를 받 으 면 소설 라벨 을 오 를 수 있 습 니 다.
소설 부분의 인터넷 주소 구 조 는 book. qidian. com / info / + bookid 형식 이 고 홈 페이지 내부 에 있 는 tag 는 바로 가운데 에 있 기 때문에 soup. p. children 을 직접 사용 하여 하나씩 추출 하면 된다.코드 는 다음 과 같 습 니 다:
for bid in bids:
r = requests.get(burl + str(bid))
if r.status_code == 400:
continue
soup = BeautifulSoup(r.text)
bookattr.write(str(bid))
for child in soup.p.children:
# ' ' ,
if child.string not in ' ':
bookattr.write(',' + child.string)
#
bookattr.write('
')
print(" " + str(bid) + "
")
그 다음 에 저 는 이 를 자신의 서버 에 배 치 했 습 니 다. sleep 을 사용 하여 사람의 클릭 조작 을 모방 하기 때문에 기어 오 르 기 를 기다 리 는 데 많은 시간 이 필요 합 니 다.
이상 소설의 추출 부분 이 완성 되 고 다음 편 은 관련 사용자 의 추출 부분 을 업데이트 합 니 다.
이 내용에 흥미가 있습니까?
현재 기사가 여러분의 문제를 해결하지 못하는 경우 AI 엔진은 머신러닝 분석(스마트 모델이 방금 만들어져 부정확한 경우가 있을 수 있음)을 통해 가장 유사한 기사를 추천합니다:
단순 코드 1from bs4 import BeautifulSoup def getHtml(url): import urllib import urllib.request print("第二种方法") request = urllib.requ...
텍스트를 자유롭게 공유하거나 복사할 수 있습니다.하지만 이 문서의 URL은 참조 URL로 남겨 두십시오.
CC BY-SA 2.5, CC BY-SA 3.0 및 CC BY-SA 4.0에 따라 라이센스가 부여됩니다.