Python을 사용하여 Brave Search에서 유기적 뉴스 긁기
11784 단어 webscrapingprogrammingpythontutorial
Intro
What will be scraped
용감한 검색이란 무엇입니까
중복되지 않는 내용을 위해 이전 Brave 블로그 게시물에서 what is Brave search에 대해 이미 작성했습니다.
소개
이 블로그 게시물은 Brave Search 웹 스크래핑 시리즈의 연속입니다. 여기에서
beautifulsoup
, requests
, lxml
라이브러리와 함께 Python을 사용하여 Brave Search에서 유기적 뉴스 결과를 스크랩하는 방법을 볼 수 있습니다.Note: HTML layout might be changed in the future thus some of
CSS
selectors might not work. Let me know if something isn't working.
전제 조건
pip install requests
pip install lxml
pip install beautifulsoup4
이 블로그 게시물은 초보자를 위한 튜토리얼이 아니므로 위에서 언급한 라이브러리에 대한 기본 지식이 있는지 확인하십시오. 따라서 기본적인 지식이 있는지 확인하십시오. 그렇게 어렵지 않다는 것을 코드로 보여드리도록 최선을 다하겠습니다.
또한
CSS
선택자를 허용하는 select()
/select_one()
beautifulsoup
메서드 때문에 CSS
선택자에 대한 기본적인 이해가 있어야 합니다. CSS
selectors reference .수입품
from bs4 import BeautifulSoup
import requests, lxml, json
스크랩 할 것
프로세스
Dune 모험을 계속하면서 Brave 검색에서 Dune 영화에 대한 뉴스를 긁어 봅시다.
일반적으로 나중에 각 요소를 반복하려면 먼저 필요한 데이터가 있는 컨테이너를 찾아야 합니다.
스크린샷은 다음과 같이 번역됩니다.
for news_result in soup.select('#news-carousel .card'):
# further code..
컨테이너를 선택한 후 제목, 링크, 표시되는 링크, 소스 웹 사이트 및 적절한 선택기가 있는 축소판
CSS
과 같은 다른 요소를 가져와야 합니다.암호
from bs4 import BeautifulSoup
import requests, lxml, json
headers = {
'User-agent':
"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.102 Safari/537.36 Edge/18.19582"
}
params = {
'q': 'dune 2021',
'source': 'web'
}
def get_organic_news_results():
html = requests.get('https://search.brave.com/search', headers=headers, params=params)
soup = BeautifulSoup(html.text, 'lxml')
data = []
for news_result in soup.select('#news-carousel .card'):
title = news_result.select_one('.title').text.strip()
link = news_result['href']
time_published = news_result.select_one('.card-footer__timestamp').text.strip()
source = news_result.select_one('.anchor').text.strip()
favicon = news_result.select_one('.favicon')['src']
thumbnail = news_result.select_one('.img-bg')['style'].split(', ')[0].replace("background-image: url('", "").replace("')", "")
data.append({
'title': title,
'link': link,
'time_published': time_published,
'source': source,
'favicon': favicon,
'thumbnail': thumbnail
})
print(json.dumps(data, indent=2, ensure_ascii=False))
get_organic_news_results()
---------------
# part of the output
'''
[
{
"title": "Zendaya talks potential 'Dune' sequel, what she admires about Tom ...",
"link": "https://www.goodmorningamerica.com/culture/story/zendaya-talks-potential-dune-sequel-admires-tom-holland-80555190",
"time_published": "17 hours ago",
"source": "goodmorningamerica.com",
"favicon": "https://imgr.search.brave.com/NygzuIHo7PzzX-7H4OjswMN4xwJ7u3_eEXq55_xXDog/fit/32/32/ce/1/aHR0cDovL2Zhdmlj/b25zLnNlYXJjaC5i/cmF2ZS5jb20vaWNv/bnMvZDQwMjIyNDJk/MjRjZGRmNjI4NmY2/NzUzY2I5YTkyMzIz/YTM4OTJiOTM3YjBm/NDk3OTVjNTIwOTY0/Nzg0YmUwYy93d3cu/Z29vZG1vcm5pbmdh/bWVyaWNhLmNvbS8",
"thumbnail": "https://imgr.search.brave.com/z-Za3HgnUCgTAP8vloSHS33eC0UkjIM8JsMdngGw_Rk/fit/200/200/ce/1/aHR0cHM6Ly9zLmFi/Y25ld3MuY29tL2lt/YWdlcy9HTUEvemVu/ZGF5YS1maWxlLWd0/eS1qZWYtMjExMDEz/XzE2MzQxMzkxNzQw/MjNfaHBNYWluXzE2/eDlfOTkyLmpwZw"
}
...
]
'''
연결
Code in the online IDE • SelectorGadget
아웃트로
질문이나 제안 사항이 있거나 제대로 작동하지 않는 경우 댓글 섹션에 자유롭게 의견을 남겨주세요.
SerpApi를 통해 해당 기능에 액세스하려면 현재 검토 중인 기능 요청Support Brave Search에 찬성 투표하십시오.
당신 것,
Dimitry 및 나머지 SerpApi 팀.
Reference
이 문제에 관하여(Python을 사용하여 Brave Search에서 유기적 뉴스 긁기), 우리는 이곳에서 더 많은 자료를 발견하고 링크를 클릭하여 보았다 https://dev.to/dmitryzub/scrape-organic-news-from-brave-search-with-python-3d53텍스트를 자유롭게 공유하거나 복사할 수 있습니다.하지만 이 문서의 URL은 참조 URL로 남겨 두십시오.
우수한 개발자 콘텐츠 발견에 전념 (Collection and Share based on the CC Protocol.)