python 기반 파충류 교육 구축

2014 단어 python기초파충
파충 류 는 도 메 인 이름 전환,정보 수집 및 정보 저장 기능 을 가지 고 있다.
기초 파충류 구 조 를 어떻게 구축 하 는 지 설명 한다.
1.urllib 라 이브 러 리:네트워크 에서 데 이 터 를 요청 하고 쿠키 를 처리 하 며 요청 헤더 와 사용자 가 메타 데 이 터 를 처리 하 는 함 수 를 포함 합 니 다.python 표준 라 이브 러 리 입 니 다.urlopen 은 네트워크 에서 가 져 온 원 격 대상 을 읽 는 데 사 용 됩 니 다.HTML 파일,이미지 파일 및 기타 파일 흐름 을 쉽게 읽 을 수 있 습 니 다.
2.beautifulsoup 라 이브 러 리:포 지 셔 닝 HTML 태그 포맷 과 복잡 한 네트워크 정 보 를 통 해 python 대상 으로 XML 구조 정 보 를 보 여 줍 니 다.표준 라 이브 러 리 가 아니 라 pip 로 설치 할 수 있 습 니 다.상용 대상 은 Beautiful Soup 대상 입 니 다.
1.기초 파충류
파충 류 는 먼저 import 대상 을 열 고 주 소 를 열 어 BeautifulSoup 으로 웹 페이지 내용 을 읽 어야 한다.

2.print 출력 으로 열 린 사이트 의 내용 입 니 다.

3.출력 에서 알 수 있 는 내용 의 구 조 는 다음 과 같다.

4.출력 내용 중의 html-body-h1 의 내용 은 네 가지 문 구 를 사용 할 수 있 습 니 다.


5.BeautifulSoup 은 HTML,XML 파일 의 임의의 노드 정 보 를 추출 할 수 있 고 대상 정보 옆 이나 근처에 표시 만 있 으 면 됩 니 다.
1.Error 는 코드 를 실행 할 때 오류 가 자주 발생 하고 오류 가 발생 하 는 원인 을 알 아야 존재 하 는 문 제 를 해결 할 수 있 습 니 다.
2.html=urlopen(')에서 두 가지 오류 가 발생 할 수 있 습 니 다.웹 페이지 는 서버 에 존재 하지 않 거나 서버 가 존재 하지 않 습 니 다.
3.웹 페이지 가 서버 에 존재 하지 않 으 면 HTTP 오류 가 발생 하고 try 문 구 를 사용 하여 처리 할 수 있 습 니 다.
프로그램 이 HTTP 오류 코드 를 되 돌 릴 때 오류 내용 이 표 시 됩 니 다.

4、서버 가 존재 하지 않 을 때 urlopen 은 None 으로 돌아 갑 니 다.
판단 문 구 를 사용 하여 검 측 할 수 있다.
호출 된 탭 이 존재 하지 않 으 면 None 이 나타 납 니 다.존재 하지 않 는 탭 의 하위 탭 을 호출 하면 AttributeError 오류 가 발생 합 니 다.

결론:이상 은 python 이 기 초 를 구축 하 는 파충류 에 대한 기본 적 인 절차 내용 입 니 다.여러분 의 읽 기와 저희 에 대한 지지 에 감 사 드 립 니 다.

좋은 웹페이지 즐겨찾기