Brave Search with Python의 유기적 비디오 결과 스크랩

이 블로그 게시물은 Brave Search 유기적 비디오 결과에서 제목, 링크, 표시된 링크, 비디오 썸네일 및 비디오 지속 시간을 스크랩하는 방법을 보여줍니다.


  • What is Brave Search

  • Intro
  • Prerequisites
  • Imports


  • What will be scraped
  • Process

  • Code
  • Links
  • Outro

  • 용감한 검색이란 무엇입니까



    중복되지 않는 콘텐츠를 위해 첫 번째 Brave 블로그 게시물에서 이미 what is Brave search에 대해 썼습니다.

    소개



    이 블로그 게시물은 Brave Search 웹 스크래핑 시리즈의 연속입니다. 여기에서 beautifulsoup , requests , lxml 라이브러리와 함께 Python을 사용하여 Brave Search에서 유기적 비디오 결과를 스크랩하는 방법을 볼 수 있습니다.

    Note: HTML layout might be changed in the future thus some of CSS selectors might not work. Let me know if something isn't working.



    전제 조건




    pip install requests
    pip install lxml 
    pip install beautifulsoup4
    


    이 블로그 게시물은 초보자를 위한 튜토리얼이 아니므로 위에서 언급한 라이브러리에 대한 기본 지식이 있는지 확인하십시오. 따라서 기본적인 지식이 있는지 확인하십시오. 그렇게 어렵지 않다는 것을 코드로 보여드리도록 최선을 다하겠습니다.

    또한 CSS 선택자를 허용하는 select()/select_one() beautifulsoup 메서드 때문에 CSS 선택자에 대한 기본적인 이해가 있어야 합니다. CSS selectors reference .

    수입품




    from bs4 import BeautifulSoup
    import requests, lxml, json
    


    스크랩 할 것



    3개의 비디오 결과가 스크랩될 뿐만 아니라 6개가 스크랩됩니다(오른쪽 화살표 버튼을 클릭하는 경우). 이 경우 모두입니다.



    프로세스



    계속해서 Dune을 돌아다니면서 Dune에 대한 유기적 비디오 결과를 긁어 봅시다.

    코드는 기본적으로 스크래핑Brave Search News results과 동일하지만 비디오 길이 데이터를 추가하고 출력에서 ​​웹 사이트 소스 데이터를 제거해야 합니다.

    이전 게시물에서와 같이 필요한 데이터가 있는 컨테이너를 찾아야 합니다.


    id 값만 #news-carousel 에서 #video-carousel 로 변경됩니다.

    for video_result in soup.select('#video-carousel .card'):
        # further code..
    


    컨테이너를 선택한 후 적절한 선택기CSS를 사용하여 제목, 링크, 표시된 링크, 비디오 축소판 및 비디오 길이와 같은 다른 요소를 가져와야 합니다.




    암호




    from bs4 import BeautifulSoup
    import requests, lxml, json
    
    headers = {
      'User-agent':
      "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.102 Safari/537.36 Edge/18.19582"
    }
    
    params = {
      'q': 'dune 2021',
      'source': 'web'
    }
    
    def get_organic_video_results():
    
      html = requests.get('https://search.brave.com/search', headers=headers, params=params)
      soup = BeautifulSoup(html.text, 'lxml')
    
      data = []
    
      for video_result in soup.select('#video-carousel .card'):
        title = video_result.select_one('.title').text.strip()
        link = video_result['href']
        source = video_result.select_one('.anchor').text.strip()
        favicon = video_result.select_one('.favicon')['src']
        thumbnail = video_result.select_one('.img-bg')['style'].split(', ')[0].replace("background-image: url('", "").replace("')", "")
        try:
          video_duration = video_result.select_one('.duration').text.strip()
        except: video_duration = None
    
        data.append({
          'title': title,
          'link': link,
          'source': source,
          'favicon': favicon,
          'thumbnail': thumbnail,
          'video_duration': video_duration
        })
    
      print(json.dumps(data, indent=2, ensure_ascii=False))
    
    
    get_organic_video_results()
    
    ---------------
    '''
    [
    # first result
     {
        "title": "Dune | Official Main Trailer - YouTube",
        "link": "https://www.youtube.com/watch?v=8g18jFHCLXk",
        "source": "youtube.com",
        "favicon": "https://imgr.search.brave.com/_l2jz03v6ptkaRq7BbdclpMEfo0AtVjCzta7SCwUTL0/fit/32/32/ce/1/aHR0cDovL2Zhdmlj/b25zLnNlYXJjaC5i/cmF2ZS5jb20vaWNv/bnMvOTkyZTZiMWU3/YzU3Nzc5YjExYzUy/N2VhZTIxOWNlYjM5/ZGVjN2MyZDY4Nzdh/ZDYzMTYxNmI5N2Rk/Y2Q3N2FkNy93d3cu/eW91dHViZS5jb20v",
        "thumbnail": "https://imgr.search.brave.com/-Ut-yfD45SCozeHmuatVUuDNJcTB3_JBS2pRhNylInw/fit/200/200/ce/1/aHR0cHM6Ly9pLnl0/aW1nLmNvbS92aS84/ZzE4akZIQ0xYay9t/YXhyZXNkZWZhdWx0/LmpwZw",
        "duration": "03:28"
      },
    # last result
      {
        "title": "Dune (2021) Future Fashion Featurette - YouTube",
        "link": "https://www.youtube.com/watch?v=0SzLFIdpmbw",
        "source": "youtube.com",
        "source_website_icon": "https://imgr.search.brave.com/_l2jz03v6ptkaRq7BbdclpMEfo0AtVjCzta7SCwUTL0/fit/32/32/ce/1/aHR0cDovL2Zhdmlj/b25zLnNlYXJjaC5i/cmF2ZS5jb20vaWNv/bnMvOTkyZTZiMWU3/YzU3Nzc5YjExYzUy/N2VhZTIxOWNlYjM5/ZGVjN2MyZDY4Nzdh/ZDYzMTYxNmI5N2Rk/Y2Q3N2FkNy93d3cu/eW91dHViZS5jb20v",
        "thumbnail": "https://imgr.search.brave.com/fA0LnkpZ-0eQi3PcH0oidTJKC0H-ULoYuAUsVcYpcaU/fit/200/200/ce/1/aHR0cHM6Ly9pLnl0/aW1nLmNvbS92aS8w/U3pMRklkcG1idy9t/YXhyZXNkZWZhdWx0/LmpwZw",
        "video_duration": "02:54"
      }
    ]
    '''
    


    연결



    Code in the online IDESelectorGadget

    아웃트로



    질문이나 제안 사항이 있거나 제대로 작동하지 않는 경우 댓글 섹션에 자유롭게 의견을 남겨주세요.

    SerpApi를 통해 해당 기능에 액세스하려면 현재 검토 중인 기능 요청Support Brave Search에 찬성 투표하십시오.

    당신 것,
    Dimitry 및 나머지 SerpApi 팀.

    좋은 웹페이지 즐겨찾기