Brave Search with Python의 유기적 비디오 결과 스크랩
12877 단어 webscrapingprogrammingpythontutorial
Intro
What will be scraped
용감한 검색이란 무엇입니까
중복되지 않는 콘텐츠를 위해 첫 번째 Brave 블로그 게시물에서 이미 what is Brave search에 대해 썼습니다.
소개
이 블로그 게시물은 Brave Search 웹 스크래핑 시리즈의 연속입니다. 여기에서
beautifulsoup
, requests
, lxml
라이브러리와 함께 Python을 사용하여 Brave Search에서 유기적 비디오 결과를 스크랩하는 방법을 볼 수 있습니다.Note: HTML layout might be changed in the future thus some of
CSS
selectors might not work. Let me know if something isn't working.
전제 조건
pip install requests
pip install lxml
pip install beautifulsoup4
이 블로그 게시물은 초보자를 위한 튜토리얼이 아니므로 위에서 언급한 라이브러리에 대한 기본 지식이 있는지 확인하십시오. 따라서 기본적인 지식이 있는지 확인하십시오. 그렇게 어렵지 않다는 것을 코드로 보여드리도록 최선을 다하겠습니다.
또한
CSS
선택자를 허용하는 select()
/select_one()
beautifulsoup
메서드 때문에 CSS
선택자에 대한 기본적인 이해가 있어야 합니다. CSS
selectors reference .수입품
from bs4 import BeautifulSoup
import requests, lxml, json
스크랩 할 것
3개의 비디오 결과가 스크랩될 뿐만 아니라 6개가 스크랩됩니다(오른쪽 화살표 버튼을 클릭하는 경우). 이 경우 모두입니다.
프로세스
계속해서 Dune을 돌아다니면서 Dune에 대한 유기적 비디오 결과를 긁어 봅시다.
코드는 기본적으로 스크래핑Brave Search News results과 동일하지만 비디오 길이 데이터를 추가하고 출력에서 웹 사이트 소스 데이터를 제거해야 합니다.
이전 게시물에서와 같이 필요한 데이터가 있는 컨테이너를 찾아야 합니다.
id
값만 #news-carousel
에서 #video-carousel
로 변경됩니다.for video_result in soup.select('#video-carousel .card'):
# further code..
컨테이너를 선택한 후 적절한 선택기
CSS
를 사용하여 제목, 링크, 표시된 링크, 비디오 축소판 및 비디오 길이와 같은 다른 요소를 가져와야 합니다.암호
from bs4 import BeautifulSoup
import requests, lxml, json
headers = {
'User-agent':
"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.102 Safari/537.36 Edge/18.19582"
}
params = {
'q': 'dune 2021',
'source': 'web'
}
def get_organic_video_results():
html = requests.get('https://search.brave.com/search', headers=headers, params=params)
soup = BeautifulSoup(html.text, 'lxml')
data = []
for video_result in soup.select('#video-carousel .card'):
title = video_result.select_one('.title').text.strip()
link = video_result['href']
source = video_result.select_one('.anchor').text.strip()
favicon = video_result.select_one('.favicon')['src']
thumbnail = video_result.select_one('.img-bg')['style'].split(', ')[0].replace("background-image: url('", "").replace("')", "")
try:
video_duration = video_result.select_one('.duration').text.strip()
except: video_duration = None
data.append({
'title': title,
'link': link,
'source': source,
'favicon': favicon,
'thumbnail': thumbnail,
'video_duration': video_duration
})
print(json.dumps(data, indent=2, ensure_ascii=False))
get_organic_video_results()
---------------
'''
[
# first result
{
"title": "Dune | Official Main Trailer - YouTube",
"link": "https://www.youtube.com/watch?v=8g18jFHCLXk",
"source": "youtube.com",
"favicon": "https://imgr.search.brave.com/_l2jz03v6ptkaRq7BbdclpMEfo0AtVjCzta7SCwUTL0/fit/32/32/ce/1/aHR0cDovL2Zhdmlj/b25zLnNlYXJjaC5i/cmF2ZS5jb20vaWNv/bnMvOTkyZTZiMWU3/YzU3Nzc5YjExYzUy/N2VhZTIxOWNlYjM5/ZGVjN2MyZDY4Nzdh/ZDYzMTYxNmI5N2Rk/Y2Q3N2FkNy93d3cu/eW91dHViZS5jb20v",
"thumbnail": "https://imgr.search.brave.com/-Ut-yfD45SCozeHmuatVUuDNJcTB3_JBS2pRhNylInw/fit/200/200/ce/1/aHR0cHM6Ly9pLnl0/aW1nLmNvbS92aS84/ZzE4akZIQ0xYay9t/YXhyZXNkZWZhdWx0/LmpwZw",
"duration": "03:28"
},
# last result
{
"title": "Dune (2021) Future Fashion Featurette - YouTube",
"link": "https://www.youtube.com/watch?v=0SzLFIdpmbw",
"source": "youtube.com",
"source_website_icon": "https://imgr.search.brave.com/_l2jz03v6ptkaRq7BbdclpMEfo0AtVjCzta7SCwUTL0/fit/32/32/ce/1/aHR0cDovL2Zhdmlj/b25zLnNlYXJjaC5i/cmF2ZS5jb20vaWNv/bnMvOTkyZTZiMWU3/YzU3Nzc5YjExYzUy/N2VhZTIxOWNlYjM5/ZGVjN2MyZDY4Nzdh/ZDYzMTYxNmI5N2Rk/Y2Q3N2FkNy93d3cu/eW91dHViZS5jb20v",
"thumbnail": "https://imgr.search.brave.com/fA0LnkpZ-0eQi3PcH0oidTJKC0H-ULoYuAUsVcYpcaU/fit/200/200/ce/1/aHR0cHM6Ly9pLnl0/aW1nLmNvbS92aS8w/U3pMRklkcG1idy9t/YXhyZXNkZWZhdWx0/LmpwZw",
"video_duration": "02:54"
}
]
'''
연결
Code in the online IDE • SelectorGadget
아웃트로
질문이나 제안 사항이 있거나 제대로 작동하지 않는 경우 댓글 섹션에 자유롭게 의견을 남겨주세요.
SerpApi를 통해 해당 기능에 액세스하려면 현재 검토 중인 기능 요청Support Brave Search에 찬성 투표하십시오.
당신 것,
Dimitry 및 나머지 SerpApi 팀.
Reference
이 문제에 관하여(Brave Search with Python의 유기적 비디오 결과 스크랩), 우리는 이곳에서 더 많은 자료를 발견하고 링크를 클릭하여 보았다 https://dev.to/dmitryzub/scrape-organic-video-results-from-brave-search-with-python-3a5d텍스트를 자유롭게 공유하거나 복사할 수 있습니다.하지만 이 문서의 URL은 참조 URL로 남겨 두십시오.
우수한 개발자 콘텐츠 발견에 전념 (Collection and Share based on the CC Protocol.)