phpspider爬虫框架的使用

这几天使用PHP的爬虫框架爬取了一些数据，发现还是挺方便的，先上爬虫框架的文档 phpspider框架文档

使用方法其实在文档中写的很清楚而且在demo中也有使用示例，这里放下我自己的代码做个笔记

<?php

include "./autoloader.php";

use phpspider\core\phpspider;

/* Do NOT delete this comment */

/* 不要删除这段注释 */

$configs = array(

    'name' => '中国保温网',

    'domains' => array(

        'www.cnbaowen.net',

        'cnbaowen.net'

    ),

    'scan_urls' => array(

        'http://www.cnbaowen.net/news/list-3720-1.html'

    ),

    'export' => array(

        'type' => 'db',

        'table' => 'articles_mc',

    ),

    'db_config' => array(

        'host'  => '127.0.0.1',

        'port'  => 3306,

        'user'  => 'root',

        'pass'  => '123456',

        'name'  => 'spider',

    ),

    'content_url_regexes' => array(

        "http://www.cnbaowen.net/news/show-\d+.html"

    ),

    'list_url_regexes' => array(

        "http://www.cnbaowen.net/news/list-3720-\d+.html"

    ),

    'fields' => array(

        array(

            // 抽取内容页的文章内容

            'name' => "title",

            'selector' => "//h1[@id='title']",

            'required' => true

        ),

        array(

            // 抽取内容页的文章作者

            'name' => "content",

            'selector' => "//div[@id='content']",

            'required' => true

        ),

        array(

            // 抽取内容页的文章作者

            'name' => "type"

        ),

        array(

            // 抽取内容页的文章作者

            'name' => "site_id"

        ),

    ),

);

$spider = new phpspider($configs);

$spider->on_list_page = function($page, $content, $spider){

    for ($i = 2; $i < 24; $i++)

    {

        $url = "http://www.cnbaowen.net/news/list-3720-{$i}.html";

        $spider->add_url($url);

    }

};

$spider->on_extract_field = function($fieldname, $data, $page){

    if($fieldname == "type"){

        return 2;

    }elseif($fieldname == "content"){

        $s = preg_replace("/<div style=\"float:right[\s\S]*?div>/","",$data);

        $s = preg_replace('/<a .*?href="(.*?)".*?>/is',"<a href='#'>",$s);

        $data = preg_replace('/<img.*?>/is',"",$s);

        return $data;

    }elseif($fieldname == "site_id"){

        return 1;

    }else{

        return $data;

    }

};

$spider->start();

注释：这里需要说明一点，抓取页面数据时我只需要标题和内容的部分，但是存入数据库时我需要使用到另外两个字段，所以定义字段的时候多定义了`type`和`site_id`两个字段，但是这两个字段的实际赋值是在 `on_extract_field` 回调函数中完成的

附带sql语句

CREATE TABLE `articles_mc` (

  `id` int(10) unsigned NOT NULL AUTO_INCREMENT,

  `title` varchar(200) DEFAULT NULL,

  `content` text,

  `type` int(5) DEFAULT '' COMMENT '文章类型 1行业资讯 2技术资料',

  `site_id` int(5) DEFAULT NULL COMMENT '站点id',

  PRIMARY KEY (`id`)

) ENGINE=InnoDB AUTO_INCREMENT=4887 DEFAULT CHARSET=utf8mb4;

phpspider爬虫框架的使用的更多相关文章

php 爬虫框架
发现两款不错的爬虫框架,极力推荐下: phpspider 一款优秀的PHP开发蜘蛛爬虫官方下载地址:https://github.com/owner888/phpspider 官方开发手册:http ...
php爬虫框架选用什么
php爬虫框架选用什么一.总结一句话总结:phpspider:官方下载地址:https://github.com/owner888/phpspider 1.phpspider能够帮我们解决哪些问题 ...
爬虫框架--webmagic
官方有详细的使用文档:http://webmagic.io/docs/zh/ 简介:这只是个java爬虫框架,具体使用需要个人去定制,没有图片验证,不能获取js渲染的网页,但简单易用,可以通过xpat ...
教你分分钟学会用python爬虫框架Scrapy爬取心目中的女神
本博文将带领你从入门到精通爬虫框架Scrapy,最终具备爬取任何网页的数据的能力.本文以校花网为例进行爬取,校花网:http://www.xiaohuar.com/,让你体验爬取校花的成就感. Scr ...
Python之Scrapy爬虫框架安装及简单使用
题记:早已听闻python爬虫框架的大名.近些天学习了下其中的Scrapy爬虫框架,将自己理解的跟大家分享.有表述不当之处,望大神们斧正. 一.初窥Scrapy Scrapy是一个为了爬取网站数据,提 ...
[开源 .NET 跨平台数据采集爬虫框架: DotnetSpider] [一] 初衷与架构设计
[DotnetSpider 系列目录] 一.初衷与架构设计二.基本使用三.配置式爬虫四.JSON数据解析与配置系统为什么要造轮子同学们可以去各大招聘网站查看一下爬虫工程师的要求,大多是招JA ...
使用Scrapy爬虫框架简单爬取图片并保存本地(妹子图）
初学Scrapy,实现爬取网络图片并保存本地功能一.先看最终效果保存在F:\pics文件夹下二.安装scrapy 1.python的安装就不说了,我用的python2.7,执行命令pip ins ...
【转载】教你分分钟学会用python爬虫框架Scrapy爬取心目中的女神
原文:教你分分钟学会用python爬虫框架Scrapy爬取心目中的女神本博文将带领你从入门到精通爬虫框架Scrapy,最终具备爬取任何网页的数据的能力.本文以校花网为例进行爬取,校花网:http:/ ...
再次分享 pyspider 爬虫框架 - V2EX
再次分享 pyspider 爬虫框架 - V2EX block

随机推荐

dd 命令
dd:用指定大小的块拷贝一个文件,并在拷贝的同时进行指定的转换. 注意:指定数字的地方若以下列字符结尾,则乘以相应的数字:b=512:c=1:k=1024:w=2 参数注释: if=文件名:输入文件名 ...
apt如何列出所有已经安装的软件包
apt如何列出所有已经安装的软件包转 https://www.helplib.com/ubuntu/article_155294 问题: 我想将所有已安装软件包的列表输出到文本文件中,以便我可以查看 ...
ubuntu 安装百度云客户端
下载地址:http://pan.baidu.com/download 如果没有安装alien,安装 luo@luo-ThinkPad-W540:~$sudo apt-get install alien ...
【ASP.NET Core学习】远程过程调用 - gRPC使用
本文介绍在gRPC使用,将从下面几个方面介绍什么是RPC 什么时候需要RPC 如何使用gRPC 什么是RPC RPC是Remote Procedure Call简称,翻译过来是远程过程调用.它是一个 ...
React Native init初始化项目时报错
之前新建RN项目都不会出现这个问题,今天报错如下,这里记录下吧. 报错截图: This will walk you through creating a new React Native projec ...
安装“Microsoft SQL Server 2014 Management Objects”时报错"Error Writing to file: Microsoft.SqlServer.XEvent.Linq.dll."
问题: 当安装的软件依赖Microsoft SQL Server 2014 Management Objects时,会把这个组件打进安装包里,但是在服务器上安装时却报如下错误: “Error Writ ...
【世界之大，我用Python】Ubuntu 自动删除自带软件
起因 Ubuntu是用来做开发程序的系统,如果存在大量的"垃圾"软件就不好了吧,不仅影响系统性能而且还会经常报错,所以每次安装完系统都会清理一次系统. 操作我清理系统一般都是直接 ...
Java.lang 包 util 包等各个包详解
java.lang 该包提供了 Java 编程的基础类,例如 Object.Math.String.StringBuffer.System.Thread 等,不使用该包就很难编写 Java 代码了. ...
计算1-9总共九个数字可以满足abc+def=hij这样的式子
计算1-9总共九个数字可以满足abc+def=hij这样的式子:其中abcdefghij九个数字各个都不相同,它们都属于1-9个数字中: 首先,第一种方法很简单很暴力,直接枚举,这样的话时间复杂度高: ...
kindeditor 在JSP 中上传文件的配置
1.将kindeditor,jsp,lib目录下的jar文件放到工程的lib目录下 2.将admin-login.jsp,upload_json.jsp,复制到admin的files目录下 3.复制以 ...

phpspider爬虫框架的使用

phpspider爬虫框架的使用的更多相关文章

随机推荐

热门专题