Python 파충류 (1) - 데이터 세척 및 추출

4054 단어 파 이 썬 파충류
re 모듈 의 사용 추출, 일치, 교체 추출: findall () 일치: match () 교체: sub ()
예:
#sub("     ",'     ','       ')
    html=re.sub('
'
,'',html) #findall(" "," ") ret=re.findall(pattern_1,html) #match(" "," ") re.match(password_patter,pass1)

Xpath 의 기본 문법
표현 식
묘사 하 다.
/
루트 노드 선택 또는 하위
//
임의의 노드, 위치 고려 하지 않 음
.
현재 노드

현재 노드 의 부모 노드
@
속성 선택
*
임의의 노드 일치
[nodename]
노드 에 따라 선별
contains (@ 속성, "포 함 된 내용")
모호 조회
text()
텍스트 내용
JSonPath 사용
주로 4 가지 방법 이 있 습 니 다: dumps (): python 대상 을 json 대상 loads () 로 변환 합 니 다. json 대상 을 python 대상 dump () 로 변환 합 니 다. python 대상 을 json 대상 으로 변환 하고 로 컬 load () 로 저장 합 니 다. 로 컬 json 대상 을 불 러 오고 python 으로 변환 합 니 다.
예:
import json
python_data=[
	{
	'name':'name1',
	'vip':True
	},
	{
	'name':None,
	'vip':False
	}
]

#dumps   python   json  
json_data=json.dumps(python_data)
#loads    json     python  
python_data=json.loads(json_data)
#dump    python    json        
json.dump(pythton_data,open('json.txt','w'))
#load       json            python  
python_data2=json.load(open('json.txt'))

좋은 웹페이지 즐겨찾기