웹 페이지 소음 제거, 웹 페이지 본문 관련 소스 항목 가져오기

(1) 웹 페이지 소음 제거
웹 페이지의 소음을 없애려면 웹 페이지 내의 표현 내용과 관련이 없는 문자, 예를 들어 광고, 평론 등을 제거해야 한다.현재 블로그, 뉴스류의 웹 페이지 소음을 없애는 데 이미 많은 응용이 있다. 예를 들어 자주 사용하는 인상 노트, 유도 노트는 관련 기술을 사용했다.
프로젝트의 필요로 인해 웹 페이지의 소음을 없애고 유용한 내용을 남겨야 한다.그래서 인터넷에서 관련 웹 페이지의 소음을 없애는 소스 개발 프로젝트를 찾았다.
(2) 참조 링크
주요 참고 링크는 이 편웹 페이지 본문 추출 도구으로 시나닷컴weibo와 관련된 미보 내용을 캡처한 것으로 보인다.자바, C++, C#, Perl, Python이 있는 프로젝트의 주소를 소개했다.
프로젝트는 파이톤이 썼기 때문에 초보적으로 사용Decruft,Python readability,Python boilerpipe,Pyhon Goose,http://jimplush.com/blog/goose 등 몇 가지를 선정했다.
(3) 실천 조작
Python readability 사용:

from readability.readability import Document

    import urllib

    html = urllib.urlopen(url).read()

    readable_article = Document(html).summary()

    readable_title = Document(html).short_title()

마지막으로 뽑은 Readablearticle은 HTML 태그가 있는 텍스트입니다.clean html 조작도 필요합니다.만약 순수한 텍스트 내용을 얻으려면 다른 일을 해야 한다

“decruft is a fork of python-readability to make it faster. It also has some logic corrections and improvements along the way.” (참조:http://www.minvolai.com/blog/decruft-arc90s-readability-in-python/)
decruft는 Python readability의 fork 버전으로 주로readability의 속도를 향상시켰다.decruft의 원본 코드는 Goolge에 놓여 있으며, 0.1버전이며, 10년 9월의 버전인 것을 발견했지만, Python-readability는 그 핵심인readability를 계속 업데이트하고 있습니다.py는 7개월 전에 업데이트되었기 때문에 decruft의 성능이 지금의readability보다 낫다는 것을 보장할 수 없습니다. 저는 decruft를 다운로드하여 시험을 진행하지 않았습니다. 관심이 있으면 스스로 시험해 볼 수 있습니다.
Python-boilerpipe: Boilerpipe의 Python 버전의 Warpper입니다. 사용할 때 jpype,chardet에 의존해야 합니다.Extractor를 구성할 때 다음과 같이 필요한 추출기를 사용자 정의할 수 있습니다.

DefaultExtractor

ArticleExtractor

ArticleSentencesExtractor

KeepEverythingExtractor

KeepEverythingWithMinKWordsExtractor

LargestContentExtractor

NumWordsRulesExtractor

CanolaExtractor

이 항목은 추출된 본문 내용 형식을 선택할 수 있습니다. 순수한 텍스트일 수도 있고 HTML을 휴대할 수도 있습니다.

Python-Goose:
테스트를 거쳐 Goose를 사용하기로 결정했습니다. 이 사이트에서 Goose의 추출 효과를 테스트할 수 있습니다.Goose에서는 Meta description도 사용할 수 있습니다.
Goose는 마지막으로 추출된 일반 텍스트를 얻을 수 있습니다.

웹 페이지 소음 제거, 웹 페이지 본문 관련 소스 항목 가져오기

좋은 웹페이지 즐겨찾기