python 파충류 흐름

1839 단어 파충
요약: 파충류 프로 세 스: 데이터 수집 - > 데이터 분석 - > 데이터 정리 - > 데이터 저장 1. 채집: urllib 2 (python 3.3 이후 urllib 2 를 urllib. request 로 변경) 또는 requests
urllib 요청 get 방식
import urllib.request
	response = urllib.request.urlopen('http://www.baidu.com')
    print(response.read().decode('utf-8')) 
    # getcode()            geturl()        url      info()        

urllib 가 요청 한 post 방식
import urllib.request
	request = urllib.request.Request(url)             #  Request  
	request.add_data('a','1')                         #    
	request.add_header("User-Agent","Mozilla/5.0")    #  http header  
	response = urllib.request.urlopen(request)         #   request    response
	# head= {"User-Agent","Mozilla/5.0"}
	# request= urllib.request.Request(url,headers = head)
	# response = urllib.request.urlopen(request)
	# print(response.read().decode('utf-8'))

requests 요청 get 방식
import  requests
response = requests.get('http://httpbin.org/get')   #   
#     get    
# response = requests.get("http://httpbin.org/get?name=germey&age=22")
#      data = {
	   				'name': 'germey',
	  				'age': 22}            
# response = requests.get("http://httpbin.org/get",params = data)          
print(response.text) 

2. 해석: BeautifulSoup + 정규 BeautifulSoup
 from bs4 import BeautifulSoup
	   res = requests.get(url)
	   soup = BeautifulSoup(res.text, 'lxml')
	   soup.select()                                     # id class   

정규:
 import re  
    re.match()
    ...

3. 일반적으로 기어 내 려 오 는 데 이 터 를 정리 하 는 것 은 문자열 입 니 다. 문자열 을 일련의 처리 해 야 합 니 다.예 를 들 어 str. strip ()
4. 저장
데이터베이스

좋은 웹페이지 즐겨찾기