python 은 어떻게 웹 페이지 의 문 자 를 기어 올 라 갑 니까?
1725 단어 python홈 페이지 를 기어오르다
#!/usr/bin/python
# -*- coding: UTF-8 -*-
import requests
import re
#
url = 'https://www.biquge.tw/75_75273/3900155.html'
# http
response = requests.get(url)
#
response.encoding='utf-8'
#
html = response.text
print(html)
1.파충류 의 사고방식 작성:다운로드 목 표를 확정 하고 웹 페이지 를 찾 아 웹 페이지 에 필요 한 내용 을 찾 습 니 다.데 이 터 를 처리 하 다.데 이 터 를 저장 하 다.
2.지식 포인트 설명:
1)네트워크 에 필요 한 정 보 를 확인 하고 웹 페이지 를 연 후 F12 로 개발 자 모드 를 엽 니 다.
Network 에서 많은 정 보 를 볼 수 있 습 니 다.저희 가 페이지 에서 본 문자 정 보 는 html 파일 에 저 장 됩 니 다.파일 을 클릭 하면 response 를 볼 수 있 습 니 다.문자 정 보 는 response 에 포함 되 어 있 습 니 다.
입력 해 야 할 정보 에 대해 서 는 ctrl+f 를 사용 하여 검색 할 수 있 습 니 다.정보 앞 뒤 에 어떤 특정 필드 가 포함 되 어 있 는 지 확인 합 니 다.
하이퍼링크 추출 에 대해 서 는 맨 왼쪽 화살표 로 하이퍼링크 를 클릭 할 수 있 습 니 다.이때 Elements 는 이 하이퍼링크 가 있 는 정 보 를 열 어 추출 할 정 보 를 판단 합 니 다.소설 다운 로드 를 보면 목록 페이지 에서 소설의 링크 와 장절 명 을 꺼낸다.
2)인 코딩 형식 주의
문자 집합 을 입력 하려 면 반드시 utf-8 로 설정 해 야 합 니 다.페이지 의 대부분 은 GBK 문자 집합 이다.설정 하지 않 으 면 번 거 로 워 집 니 다.
내용 확장:
다음은 홈 페이지 정 보 를 얻 는 절 차 를 알 아 보 겠 습 니 다.
우리 가 필요 로 하 는 데 이 터 를 얻 으 려 면 세 단계 로 나 누 어 라.
STEP 1:BeautifulSoup 으로 웹 페이지 분석
Soup = BeautifulSoup(html,'lxml')
두 번 째 단계:메 시 지 를 기어 가 려 는 것 이 어디 에 있 는 지 설명 한다.
정보=Soup.select(??)
그것 의 이름 이 무엇 인지,어떻게 위 치 를 정 하 는 지 알 아야 한다.
세 번 째 단계:탭 에서 원 하 는 정 보 를 얻 습 니 다.
Something
탭 에서 우리 가 필요 로 하 는 정 보 를 얻 고 쓸모없는 구 조 를 제거 하 며 우리 가 얻 은 정 보 를 일정한 형식 으로 데이터 용기 에 담 으 면 우리 가 조회 할 수 있 습 니 다.
이상 은 python 이 웹 페이지 의 문 자 를 어떻게 기어 오 르 는 지 에 대한 상세 한 내용 입 니 다.python 이 웹 페이지 의 문 자 를 기어 오 르 는 것 에 관 한 자 료 는 우리 의 다른 관련 글 에 관심 을 가 져 주 십시오!
이 내용에 흥미가 있습니까?
현재 기사가 여러분의 문제를 해결하지 못하는 경우 AI 엔진은 머신러닝 분석(스마트 모델이 방금 만들어져 부정확한 경우가 있을 수 있음)을 통해 가장 유사한 기사를 추천합니다:
로마 숫자를 정수로 또는 그 반대로 변환그 중 하나는 로마 숫자를 정수로 변환하는 함수를 만드는 것이었고 두 번째는 그 반대를 수행하는 함수를 만드는 것이었습니다. 문자만 포함합니다'I', 'V', 'X', 'L', 'C', 'D', 'M' ; 문자열이 ...
텍스트를 자유롭게 공유하거나 복사할 수 있습니다.하지만 이 문서의 URL은 참조 URL로 남겨 두십시오.
CC BY-SA 2.5, CC BY-SA 3.0 및 CC BY-SA 4.0에 따라 라이센스가 부여됩니다.