PHP를 사용한 초기 정보 수집(Web spider)
5864 단어 PHP
안부를 묻다
좋은 아침입니다.오늘부터 큐타 첸입니다.Qita에 어떤 기사를 쓸지는 아직 결정되지 않았지만, 어쨌든 손을 쓰면서 생각해야 한다.
웹 스파이더 정보
콘셉트
웹 스파이더가 프로그래밍된 자동 정보 수집 프로그램이라는 것을 알려주셨으면 좋겠습니다.검색엔진의 기초 기술이라고도 할 수 있다.
의 원리
웹 스파이더는 프로그램에서 서버에 요청을 보내고 서버에서 정보를 받아 그 정보를 깨끗이 씻은 뒤 원하는 정보만 자신의 DB와 개인용 컴퓨터에 저장하는 과정이다.
공구.
자바, 파이thhon, PHP 등 웹 스파이더를 할 수 있는 언어가 매우 많다.나는 언어 사이에 큰 차이가 없다고 생각한다.
그러나 웹 스파이더를 이용해 수집된 정보를 자신의 웹사이트에 실시간으로 올릴 때만 PHP가 쉽게(힘들지 않게) 이용할 수 있다.PHP가 WEB 개발에 친화력이 높다는 이유에서다.
오늘의 종점
오늘은 간단하게 PHP를 이용해 구직 사이트의 정보를 수집한다.
미리 준비하다
필요한 것은 PHP의 개발 환경입니다.
방법 중 하나:
APACHE
PHP(최신 버전도 가능)
구체적인 설치와 테스트는 다른 사이트를 참고하세요.
두 번째 방법:
XAMPP
이것은 힘들지 않다. 특히 Windows의 경우 파일의 접근 권한 등의 설정도 피할 수 있다.
————————
마지막으로 웹 Spider에서 사용하는 PHP 패키지를 다운로드합니다.
simple_html_dom.php
XAMPP 시작
MAC의 경우
① 설치를 시작하는 XAMPP
② START를 클릭하여 APACHE 시작
③ 네트워크 클릭
④localhost:808080->80을 클릭하여 Enable
⑤ 임의의 브라우저를 열고 다음 사이트를 방문한다.
XAMPP 뜨면 OK.
⑥ XAMPP의 Volumes 를 클릭하고 Mount 를 클릭한 다음 Explore 를 클릭합니다.
⑥Finder 화면을 표시하고 htdocs 폴더를 엽니다.
⑥ 먼저 다운로드한 단순html_dom.htdocs로 php 복사
이렇게 되면 전기 준비는 끝났고, 이어서 인코딩으로 넘어간다
Windows의 경우 동작이 약간 다르지만 XAMPP가 실행된 후 마지막에 XAMPP가 설치된 폴더에서 htdocs를 발견했습니다. 같은 단순입니다.html_dom.php를 htdocs로 복사하면 OK입니다.
부호화
① 먼저 이전에 열린 htdocs 폴더에 임의의 이름의 php 파일을 생성합니다. 여기는 Recrit입니다.php로
Recruit.php
<?php
require_once 'simple_html_dom.php';
//外部のsimple_html_dom.phpライブラリを使うことを声明
//ターゲットのサイトアドレスを設定、今回は○ヨタとする
$address = "https://en-hyouban.com/company/00002695955/1/?pagenum=";
//最大13ページの口コミ情報がある、ここではHTML解析の知識が必要
$maxpage = 13;
//すべてのページを巡る
for($x=1;$x<=$maxpage;$x++){
//標的アドレスのページ目を指定
$goal_add = $address.$x;
//標的アドレスのサーバーに情報請求
$html = file_get_html($goal_add);
//コメントが欲しい場合、コメントクラスを指定(HTML解析による)
$page = $html->find('div.comment');
foreach($page as $comment){
echo $comment;
}
}
?>
② 위 내용을 입력하여 저장③ 브라우저에 다음 주소를 입력합니다.
http://localhost:8080/Recruit.php
④ 프로그램을 일시적으로 시작한 결과는 다음과 같습니다.
총결산
어때요?이번에 우리는 PHP 개발 환경을 준비하고 간단한 데이터 수집 프로그램을 제작하며 프로그램을 테스트했다.
수집한 데이터를 브라우저로 출력하거나 파일에 쓸 수 없습니다.
텍스트 파일 외에도 이미지와 동영상을 수집할 수 있습니다!
또한 상세한 데이터의 세척 방법은 simple_html_dom.php을 참조하십시오.
Reference
이 문제에 관하여(PHP를 사용한 초기 정보 수집(Web spider)), 우리는 이곳에서 더 많은 자료를 발견하고 링크를 클릭하여 보았다 https://qiita.com/Buddychen/items/7d4c39d3c94761659569텍스트를 자유롭게 공유하거나 복사할 수 있습니다.하지만 이 문서의 URL은 참조 URL로 남겨 두십시오.
우수한 개발자 콘텐츠 발견에 전념 (Collection and Share based on the CC Protocol.)