기록: 자작 소설 추천 프로그램 (1)

심심 하고 소설 도 다 읽 었 습 니 다. 검 이 오 면 업데이트 되 지 않 고 오래된 소설 도 끝까지 쫓 아 다 녔 습 니 다. 출발점 에 올 라 소설 을 찾 을 때마다 각종 '높 은 점수' 를 받 았 습 니 다. '높 은 추천' 의 소설 레이 드 리 는 초조 하고 어 려 웠 습 니 다. 자신 이 새로운 소설 을 찾 을 기분 도 없 었 습 니 다. 어떻게 해 야 합 니까?
왕 이 운 의 노래 를 들 으 면서 예전 에 왕 이 운 화 때 nb 의 추천 알고리즘 이 있 었 던 것 같 아 요. 갑자기 그 부분 을 저 에 게 소설 을 추천 해 주 실 수 있 을까요?
한다 면 한다.
왕 이 클 라 우 드 의 추천 알고리즘 은 알 고 있 는 관련 대답 에서 볼 수 있 는데 이것 은 제 가 참고 한 잠재 적 인 인자 알고리즘 입 니 다.
그러면 먼저 첫 번 째 단 계 는 관련 데 이 터 를 얻 는 것 이다. 여기 서 저 는 출발점 에서 각 소설 과 관련 된 라벨 을 모든 소설의 '성분' 으로 하고 이 를 예비 용 으로 삼 았 습 니 다.한편, 사용자 에 대해 저 는 사용자 가 속 한 팬 등급 에 따라 관련 된 것 을 계산 하고 각 소설 에 대한 평 점 을 계산 합 니 다.
그렇다면 이 데 이 터 를 순조롭게 얻 기 위해 서 는 관련 홈 페이지 의 글 구 조 를 먼저 살 펴 봐 야 한다.
먼저 소설 부분 으로 이 페이지 의 시작 소설 에서 모든 소설 부분 을 볼 수 있다.
두 번 째 페이지 를 누 르 면 링크 구성 을 볼 수 있 습 니 다.
www.qidian.com/all?orderId=&style=1&pageSize=20&siteid=1&pubflag=0&hiddenField=0&page=2
  • orderId: 정렬 방식, 기점 의 이 정렬 방식 은 매우 매혹적이다. 여 기 는 말 을 많이 하지 않 고 스스로 가서 점 을 찍 어 볼 수 있다.
  • style: 배열 스타일, 그림 또는 목록 이 있 는
  • pageSize: 각 페이지 의 소설 은 수량 을 표시 합 니 다. 이 안에 그림 이 있 는 방식 이 라면 20 개 (아무리 써 도) 밖 에 없 으 며 다른 하 나 는 50
  • 입 니 다.
  • siteid, pubflag, hiddenField, 이 세 가 지 는 알 아 맞 히 지 못 했 지만 기어 오 르 는 작업 에 영향 을 주지 않 습 니 다
  • 페이지: 현재 페이지
  • 이 를 통 해 알 수 있 듯 이 page 의 값 만 수정 하면 모든 소설 을 옮 겨 다 닐 수 있 습 니 다. 그 다음 에 소설 에 대응 하 는 id 만 얻 을 수 있 습 니 다.
    그 과정 은 군더더기 없 이 py 의 beautifulsoup 으로 쉽게 얻 을 수 있 습 니 다. 코드 는 다음 과 같 습 니 다.
    with requests.Session() as s:
        r = s.get(url + str(page))
        soup = BeautifulSoup(r.text)
        try:
            result = soup.body.find('div', class_="wrap").find('div', class_="all-pro-wrap box-center cf")\
                .find('div', class_="main-content-wrap fl").find('div', class_="all-book-list")\
                .find('ul', class_="all-img-list cf").find_all('li')
        except AttributeError:
            continue
    
        for b in result:
            bookids.append(b.find(class_='book-img-box').a['data-bid'])

    그 id 는 bookids 에 저 장 됩 니 다.
    소설의 id 를 받 으 면 소설 라벨 을 오 를 수 있 습 니 다.
    소설 부분의 인터넷 주소 구 조 는 book. qidian. com / info / + bookid 형식 이 고 홈 페이지 내부 에 있 는 tag 는 바로 가운데 에 있 기 때문에 soup. p. children 을 직접 사용 하여 하나씩 추출 하면 된다.코드 는 다음 과 같 습 니 다:
    for bid in bids:
        r = requests.get(burl + str(bid))
        if r.status_code == 400:
            continue
        soup = BeautifulSoup(r.text)
        bookattr.write(str(bid))
    
        for child in soup.p.children:
            #        ' '    ,    
            if child.string not in '     ':
                bookattr.write(',' + child.string)
        #          
        bookattr.write('
    ') print(" " + str(bid) + "
    ")

    그 다음 에 저 는 이 를 자신의 서버 에 배 치 했 습 니 다. sleep 을 사용 하여 사람의 클릭 조작 을 모방 하기 때문에 기어 오 르 기 를 기다 리 는 데 많은 시간 이 필요 합 니 다.
    이상 소설의 추출 부분 이 완성 되 고 다음 편 은 관련 사용자 의 추출 부분 을 업데이트 합 니 다.

    좋은 웹페이지 즐겨찾기