python 은 어떻게 웹 페이지 의 문 자 를 기어 올 라 갑 니까?

Python 으로 웹 페이지 문 자 를 가 져 오 는 코드:

#!/usr/bin/python
# -*- coding: UTF-8 -*-
import requests
import re
#       
url = 'https://www.biquge.tw/75_75273/3900155.html'
#        http  
response = requests.get(url)
#     
response.encoding='utf-8'
#            
html = response.text
print(html)
1.파충류 의 사고방식 작성:
다운로드 목 표를 확정 하고 웹 페이지 를 찾 아 웹 페이지 에 필요 한 내용 을 찾 습 니 다.데 이 터 를 처리 하 다.데 이 터 를 저장 하 다.
2.지식 포인트 설명:
1)네트워크 에 필요 한 정 보 를 확인 하고 웹 페이지 를 연 후 F12 로 개발 자 모드 를 엽 니 다.
Network 에서 많은 정 보 를 볼 수 있 습 니 다.저희 가 페이지 에서 본 문자 정 보 는 html 파일 에 저 장 됩 니 다.파일 을 클릭 하면 response 를 볼 수 있 습 니 다.문자 정 보 는 response 에 포함 되 어 있 습 니 다.
입력 해 야 할 정보 에 대해 서 는 ctrl+f 를 사용 하여 검색 할 수 있 습 니 다.정보 앞 뒤 에 어떤 특정 필드 가 포함 되 어 있 는 지 확인 합 니 다.
하이퍼링크 추출 에 대해 서 는 맨 왼쪽 화살표 로 하이퍼링크 를 클릭 할 수 있 습 니 다.이때 Elements 는 이 하이퍼링크 가 있 는 정 보 를 열 어 추출 할 정 보 를 판단 합 니 다.소설 다운 로드 를 보면 목록 페이지 에서 소설의 링크 와 장절 명 을 꺼낸다.
2)인 코딩 형식 주의
문자 집합 을 입력 하려 면 반드시 utf-8 로 설정 해 야 합 니 다.페이지 의 대부분 은 GBK 문자 집합 이다.설정 하지 않 으 면 번 거 로 워 집 니 다.
내용 확장:
다음은 홈 페이지 정 보 를 얻 는 절 차 를 알 아 보 겠 습 니 다.
우리 가 필요 로 하 는 데 이 터 를 얻 으 려 면 세 단계 로 나 누 어 라.
STEP 1:BeautifulSoup 으로 웹 페이지 분석
Soup = BeautifulSoup(html,'lxml')
두 번 째 단계:메 시 지 를 기어 가 려 는 것 이 어디 에 있 는 지 설명 한다.
정보=Soup.select(??)
그것 의 이름 이 무엇 인지,어떻게 위 치 를 정 하 는 지 알 아야 한다.
세 번 째 단계:탭 에서 원 하 는 정 보 를 얻 습 니 다.

Something


탭 에서 우리 가 필요 로 하 는 정 보 를 얻 고 쓸모없는 구 조 를 제거 하 며 우리 가 얻 은 정 보 를 일정한 형식 으로 데이터 용기 에 담 으 면 우리 가 조회 할 수 있 습 니 다.
이상 은 python 이 웹 페이지 의 문 자 를 어떻게 기어 오 르 는 지 에 대한 상세 한 내용 입 니 다.python 이 웹 페이지 의 문 자 를 기어 오 르 는 것 에 관 한 자 료 는 우리 의 다른 관련 글 에 관심 을 가 져 주 십시오!

좋은 웹페이지 즐겨찾기