Python에서 웹 페이지에서만 글 가져오기

웹 페이지에서 본문을 간단하게 추출할 수 있는 프로그램 라이브러리

파이톤으로 봉인된 데이터를 추출하면 HTML 태그이고 그 이후의 부분은 기분에 영향을 주지 않습니다
쓸데없는 정보는 자주 얻는다.
이럴 때readability-lxml가 있으면 문제없다.제가 설명해 드릴게요.

먼저 설치

(env)$pip install readability-lxml

다음 유틸리티 범주 만들기
utils.py

# -*- coding:utf8 -*-
import lxml.html
import readability
def get_content(html):
    """
    HTMLの文字列から (タイトル, 本文) のタプルを取得する。
    """

    document = readability.Document(html)
    content_html = document.summary()
    # HTMLタグを除去して本文のテキストのみを取得する。
    content_text = lxml.html.fromstring(content_html).text_content().strip()
    short_title = document.short_title()
    return short_title, content_text

실용 프로그램 클래스를 사용하여 실제 제목과 내용을 얻었는지 테스트합니다
(야후 뉴스를 사용한 글)

import utils
import requests
obj = requests.get('https://headlines.yahoo.co.jp/hl?a=20191230-00000310-oric-ent')
title,content = utils.get_content(obj.content)
print(title)
print(content)

다음 기사를 받았는지 확인해 주세요.

역사를 갱신하다

2019/12/31 신규

Reference

이 문제에 관하여(Python에서 웹 페이지에서만 글 가져오기), 우리는 이곳에서 더 많은 자료를 발견하고 링크를 클릭하여 보았다 https://qiita.com/negisys/items/e14d9e707337a8b7e8db

텍스트를 자유롭게 공유하거나 복사할 수 있습니다.하지만 이 문서의 URL은 참조 URL로 남겨 두십시오.

우수한 개발자 콘텐츠 발견에 전념 (Collection and Share based on the CC Protocol.)

좋은 웹페이지 즐겨찾기

개발자 우수 사이트 수집

개발자가 알아야 할 필수 사이트 100선 추천 우리는 당신을 위해 100개의 자주 사용하는 개발자 학습 사이트를 정리했습니다