phpspider 的简单使用

phpspider是一款PHP开发蜘蛛爬虫框架。

官方github下载地址：https://github.com/owner888/phpspider
官方文档下载地址：https://doc.phpspider.org/
由于官方文档可能会出现打不开的情况（我一开始试了很多次都打不开），这里提供一个网盘下载地址：链接：https://pan.baidu.com/s/1LfJOCw1rthN_luotF7iUDw 密码：cylb
使用
代码下载下来后里面有几个例子，我这里就以代码中糗事百科为例，主要介绍几点注意事项。
1、代码必须放到命令行运行，可以使用 php -f 语句。
2、在代码中的例子糗事百科抓取网址写的是 http，运行不成功，要改成 https。
3、save_running_state 参数表示是否保存爬虫运行状态，如果选择了true，则会使用到redis。
4、抓取时默认使用的 selector 是 xpath，如果想使用其它的可以用 selector_type 参数修改，文档中介绍目前可用 xpath, jsonpath, regex，但是我看使用 css 也是可以的。
5、写 selector 时可以打开要抓取的页面，审查元素，选择要抓取的数据，右击->copy，选择 copy selector 或 copy xpath ，可以直接得到该元素的 selector。（这点在开发文档上也有相应的介绍）。
6、抓取的数据存储可以有三种选择，.csv 文件，.sql 文件，也可以直接插入数据库表中，选择相应的表名即可（要字段对应）。

下面贴上我修改后的代码：

<?php

// composer下载方式

// 先使用composer命令下载：

// composer require owner888/phpspider

// 引入加载器

//require './vendor/autoload.php';

// GitHub下载方式

require_once __DIR__ . '/../autoloader.php';

use phpspider\core\phpspider;

/* Do NOT delete this comment */

/* 不要删除这段注释 */

$configs = array(

    'name' => '糗事百科',

    'log_show' => true,

    'tasknum' => 1,

    'save_running_state' => false,

    'domains' => array(

        'qiushibaike.com',

        'www.qiushibaike.com'

    ),

    'scan_urls' => array(

        'https://www.qiushibaike.com/'

    ),

    'list_url_regexes' => array(

        "https://www.qiushibaike.com/8hr/page/\d+\?s=\d+"

    ),

    'content_url_regexes' => array(

        "https://www.qiushibaike.com/article/\d+",

    ),

    'max_try' => 5,

    //'proxies' => array(

        //'http://H784U84R444YABQD:57A8B0B743F9B4D2@proxy.abuyun.com:9010'

    //),

    //'export' => array(

        //'type' => 'csv',

        //'file' => '../data/qiushibaike.csv',

    //),

    //'export' => array(

        //'type'  => 'sql',

        //'file'  => '../data/qiushibaike.sql',

        //'table' => 'content',

    //),

    'export' => array(

        'type' => 'db',

        'table' => 'content',

    ),

    'db_config' => array(

        'host'  => '127.0.0.1',

        'port'  => 3306,

        'user'  => 'root',

        'pass'  => 'root',

        'name'  => 'test',

    ),

//    'queue_config' => array(

//        'host'      => '127.0.0.1',

//        'port'      => 6379,

//        'pass'      => 'foobared',

//        'db'        => 5,

//        'prefix'    => 'phpspider',

//        'timeout'   => 30,

//    ),

    'fields' => array(

        array(

            'name' => "article_title",

            'selector' => "//*[@id='single-next-link']//div[contains(@class,'content')]/text()[1]",

            'required' => true,

        ),

        array(

            'name' => "article_author",

            'selector' => "//div[contains(@class,'author')]//h2",

            'required' => true,

        ),

        array(

            'name' => "article_headimg",

            'selector' => "//div[contains(@class,'author')]//a[1]",

            'required' => true,

        ),

        array(

            'name' => "article_content",

            'selector' => "//*[@id='single-next-link']//div[contains(@class,'content')]",

            'required' => true,

        ),

        array(

            'name' => "article_publish_time",

            'selector' => "//div[contains(@class,'author')]//h2",

            'required' => true,

        ),

        array(

            'name' => "url",

            'selector' => "//div[contains(@class,'author')]//h2",   // 这里随便设置，on_extract_field回调里面会替换

            'required' => true,

        ),

    ),

);

$spider = new phpspider($configs);

$spider->on_handle_img = function($fieldname, $img)

{

    $regex = '/src="(https?:\/\/.*?)"/i';

    preg_match($regex, $img, $rs);

    if (!$rs)

    {

        return $img;

    }

    $url = $rs[1];

    $img = $url;

    //$pathinfo = pathinfo($url);

    //$fileext = $pathinfo['extension'];

    //if (strtolower($fileext) == 'jpeg')

    //{

        //$fileext = 'jpg';

    //}

    //// 以纳秒为单位生成随机数

    //$filename = uniqid().".".$fileext;

    //// 在data目录下生成图片

    //$filepath = PATH_ROOT."/images/{$filename}";

    //// 用系统自带的下载器wget下载

    //exec("wget -q {$url} -O {$filepath}");

    //// 替换成真是图片url

    //$img = str_replace($url, $filename, $img);

    return $img;

};

$spider->on_extract_field = function($fieldname, $data, $page)

{

    if ($fieldname == 'article_title')

    {

//        if (strlen($data) > 10)

//        {

//            // 下面方法截取中文会有异常

//            //$data = substr($data, 0, 10)."...";

//            $data = mb_substr($data, 0, 10, 'UTF-8')."...";

//            $data = trim($data);

//        }

    }

    elseif ($fieldname == 'article_publish_time')

    {

        // 用当前采集时间戳作为发布时间

        $data = time();

    }

    // 把当前内容页URL替换上面的field

    elseif ($fieldname == 'url')

    {

        $data = $page['url'];

    }

    return $data;

};

$spider->start();

注意一点，on_handle_img，on_extract_field两个方法抓取其它项目时不一定适用，要改成自己的逻辑处理。

运行

至此一个简单的抓取数据程序就完成了。

phpspider 的简单使用的更多相关文章

简单使用phpspider采集本博客文章内容
采集流程根据链接获取页面内容(curl)->获取需要采集的内容(可以通过正则.xpath.css选择器等方法进行筛选) <?php require_once 'phpspider/aut ...
phpspider php爬虫框架
其实我自身的不是经常写正则,而且不规则的html去写正则本身就是件很麻烦的事情,如果页面有些微变动和更新就得再次去维护正则表达式,其实是非常蛋疼的我第一感觉就是去找一下爬虫的库,但是发现现在php爬 ...
php爬虫最最最最简单教程
php爬虫最最最最简单教程一.总结一句话总结:用的爬虫框架,却是用的自己的例子(因为网站结构的变化,作者的例子不一定好用) 爬虫框架自己例子 1.发现自己的运行效果和作者的不一样怎么办? 耐下性 ...
【造轮子】打造一个简单的万能Excel读写工具
大家工作或者平时是不是经常遇到要读写一些简单格式的Excel? shit!~很蛋疼,因为之前吹牛,就搞了个这东西,还算是挺实用,和大家分享下. 厌烦了每次搞简单类型的Excel读写?不怕~来,喜欢流式 ...
Fabio 安装和简单使用
Fabio(Go 语言):https://github.com/eBay/fabio Fabio 是一个快速.现代.zero-conf 负载均衡 HTTP(S) 路由器,用于部署 Consul 管理的 ...
node.js学习（三）简单的node程序&&模块简单使用&&commonJS规范&&深入理解模块原理
一.一个简单的node程序 1.新建一个txt文件 2.修改后缀修改之后会弹出这个,点击"是" 3.运行test.js 源文件使用node.js运行之后的. 如果该路径下没有该 ...
哪种缓存效果高？开源一个简单的缓存组件j2cache
背景现在的web系统已经越来越多的应用缓存技术,而且缓存技术确实是能实足的增强系统性能的.我在项目中也开始接触一些缓存的需求. 开始简单的就用jvm(java托管内存)来做缓存,这样对于单个应用服务 ...
在Openfire上弄一个简单的推送系统
推送系统说是推送系统有点大,其实就是一个消息广播功能吧.作用其实也就是由服务端接收到消息然后推送到订阅的客户端. 思路对于推送最关键的是服务端向客户端发送数据,客户端向服务端订阅自己想要的消息.这 ...
我的MYSQL学习心得（一）简单语法
我的MYSQL学习心得(一) 简单语法我的MYSQL学习心得(二) 数据类型宽度我的MYSQL学习心得(三) 查看字段长度我的MYSQL学习心得(四) 数据类型我的MYSQL学习心得(五) 运 ...

随机推荐

NGUI动态字体的使用
LZ今年六月刚刚毕业,在学校跟着老师做Android,OpenGL ES方面的项目(说白了就是干苦力╮(╯_╰)╭).年后来SZ了,就业前景好像并没有电视上渲染的那样糟糕,至少IT行业是这样吧,只要你 ...
DispatchAction和ForwardAction
添加功能的步骤:做页面——编写DAO类中的方法——编写和配置action. 如果多个action 使用一个formbean,这种事儿多发生在统一模块中,就可以用一个Action集中处理多个操作,而不要 ...
js实现base64编码与解码(原生js)
一直以来很多人使用到 JavaScript 进行 base64 编码解码时都是使用的 Base64.js,但事实上,浏览器很早就原生支持 base64 的编码与解码了以前的方式编码: <ja ...
javascript正则表达式 - 学习笔记
JavaScript 正则表达式学习笔记标签(空格分隔): 基础 JavaScript 正则表达式是用于匹配字符串中字符组合的模式.在javascript中,正则表达式也是对象.这些模式被用于Re ...
tampermonkey利用@require调用本地脚本的方法
比如Tampermonkey上的有个用户脚本a,本来的方法是: 1.直接在Tampermonkey上编辑js,适合高手,但是本人不清楚脚本如何同步,况且不熟练js,在Tampermonkey上写太难了 ...
Windows 2012R2远程桌面服务简介
一.远程桌面服务概述远程桌面服务加快并扩展了到任何设备的桌面和应用程序部署,在帮助保护关键知识产权的安全的同时提高了工作人员的工作效率,简化了法规遵从性. 远程桌面服务启用虚拟机基础结构 (VDI) ...
js正则判断日期
//****************************************************************************// Function ID : Commo ...
Android学习笔记_79_ Android 使用搜索框
1.在资源文件夹下创建xml文件夹,并创建一个searchable.xml: android:searchSuggestAuthorityshux属性的值跟实现SearchRecentSuggesti ...
HTML5之canvas基本API介绍及应用 1
一.canvas的API: 1.颜色.样式和阴影: 2.线条样式属性和方法: 3.路径方法: 4.转换方法: 5.文本属性和方法: 6.像素操作方法和属性: 7.其他: drawImage:向画布上绘 ...
Linux 和类 Unix 系统上5个最佳开源备份工具
转载:http://linux.cn/article-4623-weixin.html#rd?sukey=cbbc36a2500a2e6cb7678c4d38b691a9fa7403b259f898e ...

phpspider 的简单使用

phpspider 的简单使用

phpspider 的简单使用的更多相关文章

随机推荐

热门专题