python 3 에서 인 코딩 하여 웹 페이지 를 가 져 오 는 실례 방법
1513 단어 python3부호화웹 페이지 가 져 오기
1. encoding 과 apparentencoding
import scrapy
url="https://www.xxx.net/html/gndy/dyzz/index.html"
re=requests.get(url)
# Content-Type charset , charset , ISO-8859-1
print(re.encoding)
#apparent_encoding
print(re.apparent_encoding)
2.처리 방안직접 r.encoding='xxx'로
re.encoding='utf-8'
3.requests 의 text()와 content()는 어떤 차이 가 있 습 니까?re.text 는 처 리 된 유 니 코드 형 데 이 터 를 되 돌려 줍 니 다.
re.content 를 사용 하여 bytes 형의 원본 데 이 터 를 되 돌려 줍 니 다.
4.파충류 가 받 은 HTML 과 브 라 우 저의 원본 코드 가 일치 하지 않 음
원본 코드 다운로드 로 비교
import requests
url = 'https://www.xxx.net/html/gndy/dyzz/index.html'
r = requests.get(url)
r.encoding = r.apparent_encoding
html = r.text
with open('test.html','w',encoding='utf8') as f:
f.write(html)
python 3 에서 웹 페이지 를 가 져 오 는 인 스 턴 스 방법 에 관 한 이 글 은 여기까지 소개 되 었 습 니 다.더 많은 python 3 에서 인 코딩 으로 웹 페이지 내용 을 가 져 오 는 방법 에 대해 서 는 예전 의 글 을 검색 하거나 아래 의 관련 글 을 계속 찾 아 보 세 요.앞으로 많은 지원 을 바 랍 니 다!
이 내용에 흥미가 있습니까?
현재 기사가 여러분의 문제를 해결하지 못하는 경우 AI 엔진은 머신러닝 분석(스마트 모델이 방금 만들어져 부정확한 경우가 있을 수 있음)을 통해 가장 유사한 기사를 추천합니다:
Jupyter 공식 DockerHub에 대한 메모에 기재되어 있다. base-notebook minimal-notebook scipy-notebook tensorflow-notebook datascience-notebook pyspark-notebook all-s...
텍스트를 자유롭게 공유하거나 복사할 수 있습니다.하지만 이 문서의 URL은 참조 URL로 남겨 두십시오.
CC BY-SA 2.5, CC BY-SA 3.0 및 CC BY-SA 4.0에 따라 라이센스가 부여됩니다.