기록: 자작 소설 추천 프로그램 (1)

심심 하고 소설 도 다 읽 었 습 니 다. 검 이 오 면 업데이트 되 지 않 고 오래된 소설 도 끝까지 쫓 아 다 녔 습 니 다. 출발점 에 올 라 소설 을 찾 을 때마다 각종 '높 은 점수' 를 받 았 습 니 다. '높 은 추천' 의 소설 레이 드 리 는 초조 하고 어 려 웠 습 니 다. 자신 이 새로운 소설 을 찾 을 기분 도 없 었 습 니 다. 어떻게 해 야 합 니까?
왕 이 운 의 노래 를 들 으 면서 예전 에 왕 이 운 화 때 nb 의 추천 알고리즘 이 있 었 던 것 같 아 요. 갑자기 그 부분 을 저 에 게 소설 을 추천 해 주 실 수 있 을까요?
한다 면 한다.
왕 이 클 라 우 드 의 추천 알고리즘 은 알 고 있 는 관련 대답 에서 볼 수 있 는데 이것 은 제 가 참고 한 잠재 적 인 인자 알고리즘 입 니 다.
그러면 먼저 첫 번 째 단 계 는 관련 데 이 터 를 얻 는 것 이다. 여기 서 저 는 출발점 에서 각 소설 과 관련 된 라벨 을 모든 소설의 '성분' 으로 하고 이 를 예비 용 으로 삼 았 습 니 다.한편, 사용자 에 대해 저 는 사용자 가 속 한 팬 등급 에 따라 관련 된 것 을 계산 하고 각 소설 에 대한 평 점 을 계산 합 니 다.
그렇다면 이 데 이 터 를 순조롭게 얻 기 위해 서 는 관련 홈 페이지 의 글 구 조 를 먼저 살 펴 봐 야 한다.
먼저 소설 부분 으로 이 페이지 의 시작 소설 에서 모든 소설 부분 을 볼 수 있다.
두 번 째 페이지 를 누 르 면 링크 구성 을 볼 수 있 습 니 다.
www.qidian.com/all?orderId=&style=1&pageSize=20&siteid=1&pubflag=0&hiddenField=0&page=2

orderId: 정렬 방식, 기점 의 이 정렬 방식 은 매우 매혹적이다. 여 기 는 말 을 많이 하지 않 고 스스로 가서 점 을 찍 어 볼 수 있다.

style: 배열 스타일, 그림 또는 목록 이 있 는

pageSize: 각 페이지 의 소설 은 수량 을 표시 합 니 다. 이 안에 그림 이 있 는 방식 이 라면 20 개 (아무리 써 도) 밖 에 없 으 며 다른 하 나 는 50

입 니 다.

siteid, pubflag, hiddenField, 이 세 가 지 는 알 아 맞 히 지 못 했 지만 기어 오 르 는 작업 에 영향 을 주지 않 습 니 다

페이지: 현재 페이지

이 를 통 해 알 수 있 듯 이 page 의 값 만 수정 하면 모든 소설 을 옮 겨 다 닐 수 있 습 니 다. 그 다음 에 소설 에 대응 하 는 id 만 얻 을 수 있 습 니 다.
그 과정 은 군더더기 없 이 py 의 beautifulsoup 으로 쉽게 얻 을 수 있 습 니 다. 코드 는 다음 과 같 습 니 다.

with requests.Session() as s:
    r = s.get(url + str(page))
    soup = BeautifulSoup(r.text)
    try:
        result = soup.body.find('div', class_="wrap").find('div', class_="all-pro-wrap box-center cf")\
            .find('div', class_="main-content-wrap fl").find('div', class_="all-book-list")\
            .find('ul', class_="all-img-list cf").find_all('li')
    except AttributeError:
        continue

    for b in result:
        bookids.append(b.find(class_='book-img-box').a['data-bid'])

그 id 는 bookids 에 저 장 됩 니 다.
소설의 id 를 받 으 면 소설 라벨 을 오 를 수 있 습 니 다.
소설 부분의 인터넷 주소 구 조 는 book. qidian. com / info / + bookid 형식 이 고 홈 페이지 내부 에 있 는 tag 는 바로 가운데 에 있 기 때문에 soup. p. children 을 직접 사용 하여 하나씩 추출 하면 된다.코드 는 다음 과 같 습 니 다:

for bid in bids:
    r = requests.get(burl + str(bid))
    if r.status_code == 400:
        continue
    soup = BeautifulSoup(r.text)
    bookattr.write(str(bid))

    for child in soup.p.children:
        #        ' '    ，    
        if child.string not in '     ':
            bookattr.write(',' + child.string)
    #          
    bookattr.write('
')
    print("   " + str(bid) + " 
")

그 다음 에 저 는 이 를 자신의 서버 에 배 치 했 습 니 다. sleep 을 사용 하여 사람의 클릭 조작 을 모방 하기 때문에 기어 오 르 기 를 기다 리 는 데 많은 시간 이 필요 합 니 다.
이상 소설의 추출 부분 이 완성 되 고 다음 편 은 관련 사용자 의 추출 부분 을 업데이트 합 니 다.

이 내용에 흥미가 있습니까?

현재 기사가 여러분의 문제를 해결하지 못하는 경우 AI 엔진은 머신러닝 분석(스마트 모델이 방금 만들어져 부정확한 경우가 있을 수 있음)을 통해 가장 유사한 기사를 추천합니다:

단순 코드 1

from bs4 import BeautifulSoup def getHtml(url): import urllib import urllib.request print("第二种方法") request = urllib.requ...

텍스트를 자유롭게 공유하거나 복사할 수 있습니다.하지만 이 문서의 URL은 참조 URL로 남겨 두십시오.

CC BY-SA 2.5, CC BY-SA 3.0 및 CC BY-SA 4.0에 따라 라이센스가 부여됩니다.

기록: 자작 소설 추천 프로그램 (1)

좋은 웹페이지 즐겨찾기