python 파충류 데이터 추출의bs4 사용 방법

1213 단어

Beautiful Soup 사용


1. 다운로드
pip install bs4 
pip install lxml #    

2. 인용 방법
from bs4 import BeautifulSoup #  

3. 원리 해석
  • BeautifulSoup의 대상을 실례화하고 해석될 페이지 원본 데이터를 이 대상에 불러오기
  • BeautifulSoup 대상의 관련 속성과 방법을 호출하여 라벨 포지셔닝과 데이터 추출
  • 4. 사용법
    한 단락의 문서를 BeautifulSoup으로 전송하는 구조 방법은 한 문서의 대상을 얻을 수 있고 문자열이나 파일 핸들을 전송할 수 있다
    soup = BeautifulSoup(open("index.html"),'lxml') #  
    
    soup = BeautifulSoup("data",'lxml') #  
    
  • tag 순수 라벨 포지셔닝
    soup.tagName: TagName , 
    
    속성 포지셔닝
     :soup.find('tagName',attrName='value'), ( )
    find_all: find , 
     :attrname class class_,id id
    
  • selector 반환값은 목록
     :select(' ')
     bs4.element.ResultSet
     , ,id, (>: , : )
    
  • 데이터 추출
  • 텍스트 가져오기
  • tag.string: 탭의 직계 텍스트 내용
  • tag.text: 탭의 모든 텍스트 내용
  • 속성 가져오기
  • tag['attrName']



  • 5. 주의사항
    bs4밖에 없어요.element.Tag 대상은 상기 방법과 속성을 가지며, select가 되돌아오는 대상 집합은 이 속성과 방법을 가지지 않으며, 색인을 통해 대응하는 Tag 대상을 가져와야만 데이터 추출 작업을 할 수 있다.

    좋은 웹페이지 즐겨찾기