PHP를 사용한 초기 정보 수집(Web spider)

5864 단어 PHP

안부를 묻다


좋은 아침입니다.오늘부터 큐타 첸입니다.Qita에 어떤 기사를 쓸지는 아직 결정되지 않았지만, 어쨌든 손을 쓰면서 생각해야 한다.

웹 스파이더 정보


콘셉트


웹 스파이더가 프로그래밍된 자동 정보 수집 프로그램이라는 것을 알려주셨으면 좋겠습니다.검색엔진의 기초 기술이라고도 할 수 있다.

의 원리


웹 스파이더는 프로그램에서 서버에 요청을 보내고 서버에서 정보를 받아 그 정보를 깨끗이 씻은 뒤 원하는 정보만 자신의 DB와 개인용 컴퓨터에 저장하는 과정이다.

공구.


자바, 파이thhon, PHP 등 웹 스파이더를 할 수 있는 언어가 매우 많다.나는 언어 사이에 큰 차이가 없다고 생각한다.
그러나 웹 스파이더를 이용해 수집된 정보를 자신의 웹사이트에 실시간으로 올릴 때만 PHP가 쉽게(힘들지 않게) 이용할 수 있다.PHP가 WEB 개발에 친화력이 높다는 이유에서다.

오늘의 종점


오늘은 간단하게 PHP를 이용해 구직 사이트의 정보를 수집한다.

미리 준비하다


필요한 것은 PHP의 개발 환경입니다.
방법 중 하나:
APACHE
PHP(최신 버전도 가능)
구체적인 설치와 테스트는 다른 사이트를 참고하세요.
두 번째 방법:
XAMPP
이것은 힘들지 않다. 특히 Windows의 경우 파일의 접근 권한 등의 설정도 피할 수 있다.
————————
마지막으로 웹 Spider에서 사용하는 PHP 패키지를 다운로드합니다.
simple_html_dom.php

XAMPP 시작


MAC의 경우
① 설치를 시작하는 XAMPP
② START를 클릭하여 APACHE 시작

③ 네트워크 클릭

④localhost:808080->80을 클릭하여 Enable

⑤ 임의의 브라우저를 열고 다음 사이트를 방문한다.
XAMPP 뜨면 OK.

⑥ XAMPP의 Volumes 를 클릭하고 Mount 를 클릭한 다음 Explore 를 클릭합니다.

⑥Finder 화면을 표시하고 htdocs 폴더를 엽니다.

⑥ 먼저 다운로드한 단순html_dom.htdocs로 php 복사

이렇게 되면 전기 준비는 끝났고, 이어서 인코딩으로 넘어간다
Windows의 경우 동작이 약간 다르지만 XAMPP가 실행된 후 마지막에 XAMPP가 설치된 폴더에서 htdocs를 발견했습니다. 같은 단순입니다.html_dom.php를 htdocs로 복사하면 OK입니다.

부호화


① 먼저 이전에 열린 htdocs 폴더에 임의의 이름의 php 파일을 생성합니다. 여기는 Recrit입니다.php로
Recruit.php
<?php 
    require_once 'simple_html_dom.php';
    //外部のsimple_html_dom.phpライブラリを使うことを声明
    //ターゲットのサイトアドレスを設定、今回は○ヨタとする
    $address = "https://en-hyouban.com/company/00002695955/1/?pagenum=";
    //最大13ページの口コミ情報がある、ここではHTML解析の知識が必要
    $maxpage = 13;
    //すべてのページを巡る
    for($x=1;$x<=$maxpage;$x++){
        //標的アドレスのページ目を指定
        $goal_add = $address.$x;
        //標的アドレスのサーバーに情報請求
        $html = file_get_html($goal_add);
        //コメントが欲しい場合、コメントクラスを指定(HTML解析による)
        $page = $html->find('div.comment');
        foreach($page as $comment){
            echo $comment;
        }
    }

?>
② 위 내용을 입력하여 저장
③ 브라우저에 다음 주소를 입력합니다.
http://localhost:8080/Recruit.php
④ 프로그램을 일시적으로 시작한 결과는 다음과 같습니다.

총결산


어때요?이번에 우리는 PHP 개발 환경을 준비하고 간단한 데이터 수집 프로그램을 제작하며 프로그램을 테스트했다.
수집한 데이터를 브라우저로 출력하거나 파일에 쓸 수 없습니다.
텍스트 파일 외에도 이미지와 동영상을 수집할 수 있습니다!
또한 상세한 데이터의 세척 방법은 simple_html_dom.php을 참조하십시오.

좋은 웹페이지 즐겨찾기