python은 BeautifulSoup을 사용하여 웹 페이지 정보를 분석하는 방법

1381 단어
본고의 실례는python이BeautifulSoup을 사용하여 웹 정보를 분석하는 방법을 설명하였다.여러분에게 참고하도록 공유하다.구체적으로 다음과 같다.
이python 코드는 웹 페이지의 모든 링크를 찾고, 모든span 탭을 분석하며,class가 titletext를 포함하는span의 내용을 찾습니다

   #import the library used to query a website 
  
import urllib2

#specify the url you want to query
url = "http://www.python.org"

#Query the website and return the html to the variable 'page'
page = urllib2.urlopen(url)

#import the Beautiful soup functions to parse the data returned from the website
from BeautifulSoup import BeautifulSoup

#Parse the html in the 'page' variable, and store it in Beautiful Soup format
soup = BeautifulSoup(page)

#to print the soup.head is the head tag and soup.head.title is the title tag
print soup.head
print soup.head.title

#to print the length of the page, use the len function
print len(page)

#create a new variable to store the data you want to find.
tags = soup.findAll('a')

#to print all the links
print tags

#to get all titles and print the contents of each title
titles = soup.findAll('span', attrs = { 'class' : 'titletext' })
for title in allTitles:
print title.contents


본고에서 서술한 것이 여러분의 파이톤 프로그램 설계에 도움이 되었으면 합니다.

좋은 웹페이지 즐겨찾기