Python 은 Chrome 플러그 인 을 사용 하여 파충류 과정 도 해 를 실현 합 니 다.
캡 처 한 주소,댓 글,댓 글 내용,시간,제품 색상 을 모두 캡 처 한 것 을 볼 수 있 습 니 다.그렇다면 이 데 이 터 를 기어 오 르 려 면 어떤 도구 가 필요 할 까?두 개 만:
1.Chrome 브 라 우 저;
2.플러그 인:웹 스크레이퍼
플러그 인 다운로드 주소:https://chromecj.com/productivity/2018-05/942.html
마지막 으로 당신 이 직접 잡 고 싶다 면 여 기 는 이번에 잡 는 상세 한 과정 입 니 다.
1.우선,다음 과 같은 코드 를 복사 합 니 다.네,코드 를 쓸 필요 가 없 지만 손 에 넣 기 편 하도록 필요 합 니 다.나중에 스스로 맞 춤 형 과 선택 을 할 수 있 고 코드 를 쓸 필요 가 없습니다.
{
"_id": "jdreview",
"startUrl": [
"https://item.jd.com/100000680365.html#comment"
],
"selectors": [
{
"id": "user",
"type": "SelectorText",
"selector": "div.user-info",
"parentSelectors": [
"main"
],
"multiple": false,
"regex": "",
"delay": 0
},
{
"id": "comments",
"type": "SelectorText",
"selector": "div.comment-column > p.comment-con",
"parentSelectors": [
"main"
],
"multiple": false,
"regex": "",
"delay": 0
},
{
"id": "time",
"type": "SelectorText",
"selector": "div.comment-message:nth-of-type(5) span:nth-of-type(4), div.order-info span:nth-of-type(4)",
"parentSelectors": [
"main"
],
"multiple": false,
"regex": "",
"delay": "0"
},
{
"id": "color",
"type": "SelectorText",
"selector": "div.order-info span:nth-of-type(1)",
"parentSelectors": [
"main"
],
"multiple": false,
"regex": "",
"delay": 0
},
{
"id": "main",
"type": "SelectorElementClick",
"selector": "div.comment-item",
"parentSelectors": [
"_root"
],
"multiple": true,
"delay": "10000",
"clickElementSelector": "div.com-table-footer a.ui-pager-next",
"clickType": "clickMore",
"discardInitialElements": false,
"clickElementUniquenessType": "uniqueHTMLText"
}
]
}
2.chrome 브 라 우 저 를 열 고 임의의 페이지 에서 Ctrl+Shift+i 를 동시에 누 르 면 팝 업 창 에서 Web Scraper 를 찾 습 니 다.다음 과 같 습 니 다.3.아래 와 같다
4.그림 과 같이 위 코드 를 붙 여 넣 기:
5.그림 과 같이 만약 에 맞 춤 형 사이트 주소 가 필요 하 다 면 대 체 를 주의해 야 합 니 다.사이트 뒤의\#comment 는 댓 글 에 직통 하 는 링크 이 므 로 삭제 할 수 없습니다.
6.그림 참조:
7.그림 과 같다.
8.그림 에서 스 크 래 프 트 를 클릭 하면 자동 으로 실행 되 고 페이지 를 잡 아야 합 니 다.창 을 닫 지 말고 조용히 기다 리 세 요.완성 후 오른쪽 아래 에 완성 알림 이 있 습 니 다.보통 1000 개 이내 의 댓 글 은 문제 가 없 을 것 입 니 다.
9.마지막 으로 컴퓨터 에 다운 로드 를 클릭 하면 데이터 가 저 장 됩 니 다.
이 도 구 를 사용 하 는 장점 은:
1.프로 그래 밍 이 필요 없습니다.
2.경 동의 댓 글 은 기본적으로 이 스 크 립 트 를 사용 할 수 있 고 해당 되 는 url 을 수정 하면 됩 니 다.
3.올 라 가 야 할 댓 글 이 1000 개 도 안 되면 이 도 구 는 손 에 잘 맞 고 모든 데 이 터 를 자동 으로 다운로드 합 니 다.
사용 한 주의사항:
1.한 번 캡 처 한 데 이 터 는 기록 이 있 습 니 다.즉시 다시 캡 처 하면 저장 되 지 않 습 니 다.브 라 우 저 를 닫 고 다시 열 어 보 는 것 을 권장 합 니 다.
2.캡 처 수량:1000 개 이내 에 문제 가 없습니다.경 동 은 IP 에 따라 더 많은 기어 오 르 는 것 을 직접 막 았 을 것 입 니 다.
영어 실력 이 좋다 면 공식 문 서 를 읽 고 파충 류 를 더 배우 고 맞 춤 형 으로 만들어 보 세 요.
공식 튜 토리 얼:https://www.webscraper.io/documentation
이상 이 바로 본 고의 모든 내용 입 니 다.여러분 의 학습 에 도움 이 되 고 저 희 를 많이 응원 해 주 셨 으 면 좋 겠 습 니 다.
이 내용에 흥미가 있습니까?
현재 기사가 여러분의 문제를 해결하지 못하는 경우 AI 엔진은 머신러닝 분석(스마트 모델이 방금 만들어져 부정확한 경우가 있을 수 있음)을 통해 가장 유사한 기사를 추천합니다:
Python의 None과 NULL의 차이점 상세 정보그래서 대상 = 속성 + 방법 (사실 방법도 하나의 속성, 데이터 속성과 구별되는 호출 가능한 속성 같은 속성과 방법을 가진 대상을 클래스, 즉 Classl로 분류할 수 있다.클래스는 하나의 청사진과 같아서 하나의 ...
텍스트를 자유롭게 공유하거나 복사할 수 있습니다.하지만 이 문서의 URL은 참조 URL로 남겨 두십시오.
CC BY-SA 2.5, CC BY-SA 3.0 및 CC BY-SA 4.0에 따라 라이센스가 부여됩니다.