python 파충류 찾기 페이지 원본 이 페이지에서 보기

4128 단어

python 파충류가 웹 페이지의 내용을 추출할 때 내용을 내용 형식과 함께 가져와서 자신의 웹 페이지에 자신의 웹 페이지가django 프레임워크라고 표시해야 한다
먼저 HTML 코드의 변수 html을 정의합니다.

>>> print(html)
 
   my 
 
   name 

 is   JAY

, 우리는div의 내용을 가져와서 자신의 웹 페이지에 표시할 것입니다. 빈칸과 줄 바꾸기 등은 모두 HTML 코드로 캡처됩니다.궁극적으로 원하는 데이터는
my
name
is JAY

(1) 우선 soup.string은 안 돼요. 왜냐하면 div 밑에 하위 라벨이 하나밖에 없어요.

>>> from bs4 import BeautifulSoup
>>> soup = BeautifulSoup(html, 'html.parser')
>>> soup.string
>>>

반환 값이 비어 있는 것을 볼 수 있습니다
(2) get 사용text () 도 안 됩니다. 왜냐하면 gettext () 에서 가져온 문자열은 모두 전의된 것입니다. 우리는 원생 HTML 코드를 원합니다

>>> soup.get_text()
' 
 \xa0\xa0my  
 \xa0 name 
 is \xa0 JAY 
'

하지만 gettext () 는 다른 많은 장소에서 매우 실용적이며, 탭 아래의 모든 자손 탭 안의 텍스트 내용을 얻을 수 있다
동시에 매개변수를 지정할 수 있습니다.

>>> soup.get_text('|')  #  tag        
' 
 \xa0\xa0my | 
 \xa0 name |
 is \xa0 JAY |
'

>>> soup.get_text('|', strip=True)   #           
'my|name|is \xa0 JAY'

또는 soup.stripped_strings 생성기, 텍스트 내용 수동 처리 가져오기
(3) 사용할 수 있다.contents

>>> content_soup = soup.div.contents
>>> content_soup
[' 
 \xa0\xa0my ', 
, ' 
 \xa0 name ', 
, '
 is \xa0 JAY ', 
, '
']
>>> content_soup = [str(i) for i in content_soup]   #               
>>> content_text = ''.join(content_soup)     #           
>>> content_text
' 
 \xa0\xa0my 
 
 \xa0 name 

 is \xa0 JAY 

'
>>> print(content_text)
 
   my 
 
   name 

 is   JAY

이로써 웹 페이지에 변수를 직접 넣을 수 있습니다
전재 대상:https://www.cnblogs.com/stuqx/p/7291940.html

이 내용에 흥미가 있습니까?

현재 기사가 여러분의 문제를 해결하지 못하는 경우 AI 엔진은 머신러닝 분석(스마트 모델이 방금 만들어져 부정확한 경우가 있을 수 있음)을 통해 가장 유사한 기사를 추천합니다:

다양한 언어의 JSON

JSON은 Javascript 표기법을 사용하여 데이터 구조를 레이아웃하는 데이터 형식입니다. 그러나 Javascript가 코드에서 이러한 구조를 나타낼 수 있는 유일한 언어는 아닙니다. 저는 일반적으로 '객체'{}...

텍스트를 자유롭게 공유하거나 복사할 수 있습니다.하지만 이 문서의 URL은 참조 URL로 남겨 두십시오.

CC BY-SA 2.5, CC BY-SA 3.0 및 CC BY-SA 4.0에 따라 라이센스가 부여됩니다.

좋은 웹페이지 즐겨찾기

개발자 우수 사이트 수집

개발자가 알아야 할 필수 사이트 100선 추천 우리는 당신을 위해 100개의 자주 사용하는 개발자 학습 사이트를 정리했습니다