python 파충류 찾기 페이지 원본 이 페이지에서 보기

4128 단어
python 파충류가 웹 페이지의 내용을 추출할 때 내용을 내용 형식과 함께 가져와서 자신의 웹 페이지에 자신의 웹 페이지가django 프레임워크라고 표시해야 한다
먼저 HTML 코드의 변수 html을 정의합니다.
>>> print(html)
  my
  name
is   JAY

, 우리는div의 내용을 가져와서 자신의 웹 페이지에 표시할 것입니다. 빈칸과 줄 바꾸기 등은 모두 HTML 코드로 캡처됩니다.궁극적으로 원하는 데이터는
  my
  name
is   JAY
 
(1) 우선 soup.string은 안 돼요. 왜냐하면 div 밑에 하위 라벨이 하나밖에 없어요.
>>> from bs4 import BeautifulSoup
>>> soup = BeautifulSoup(html, 'html.parser')
>>> soup.string
>>> 

반환 값이 비어 있는 것을 볼 수 있습니다
(2) get 사용text () 도 안 됩니다. 왜냐하면 gettext () 에서 가져온 문자열은 모두 전의된 것입니다. 우리는 원생 HTML 코드를 원합니다
>>> soup.get_text()
' 
\xa0\xa0my
\xa0 name
is \xa0 JAY
'

하지만 gettext () 는 다른 많은 장소에서 매우 실용적이며, 탭 아래의 모든 자손 탭 안의 텍스트 내용을 얻을 수 있다
동시에 매개변수를 지정할 수 있습니다.
>>> soup.get_text('|')  #  tag        
' 
\xa0\xa0my |
\xa0 name |
is \xa0 JAY |
' >>> soup.get_text('|', strip=True) # 'my|name|is \xa0 JAY'

또는 soup.stripped_strings 생성기, 텍스트 내용 수동 처리 가져오기
(3) 사용할 수 있다.contents
>>> content_soup = soup.div.contents
>>> content_soup
[' 
\xa0\xa0my
',
, '
\xa0 name
',
, '
is \xa0 JAY
',
, '
'] >>> content_soup = [str(i) for i in content_soup] # >>> content_text = ''.join(content_soup) # >>> content_text '
\xa0\xa0my

\xa0 name

is \xa0 JAY

' >>> print(content_text) my
name
is JAY

이로써 웹 페이지에 변수를 직접 넣을 수 있습니다
전재 대상:https://www.cnblogs.com/stuqx/p/7291940.html

좋은 웹페이지 즐겨찾기