phpspider PHP 爬虫

* 通过composer下载

composer require owner888/phpspider

// composer.json

{

    "require": {

        "owner888/phpspider": "^2.1"

    }

}

* 去掉讨厌的注释

https://doc.phpspider.org/demo-start.html

　./vendor/owner888/phpspider/core/phpspider.php

/* Do NOT delete this comment */

        // 彩蛋

        $included_files = get_included_files();

        $content = file_get_contents($included_files[0]);

        if (!preg_match("#/\* Do NOT delete this comment \*/#", $content) || !preg_match("#/\* 不要删除这段注释 \*/#", $content))

        {

            $msg = "Unknown error...";

            log::error($msg);

            exit;

        }

　删掉这段恶心的代码

* 导入数据库文件

cd ./vendor/owner888/phpspider/demo

mysql -uroot -hlocalhost -p

create database demo charset utf8 collate utf8_general_ci;

\. qiushibaike.sql

# ************************************************************

# Sequel Pro SQL dump

# Version 4541

#

# http://www.sequelpro.com/

# https://github.com/sequelpro/sequelpro

#

# Host: 127.0.0.1 (MySQL 5.7.14)

# Database: demo

# Generation Time: 2016-10-20 16:55:11 +0000

# ************************************************************

/*!40101 SET @OLD_CHARACTER_SET_CLIENT=@@CHARACTER_SET_CLIENT */;

/*!40101 SET @OLD_CHARACTER_SET_RESULTS=@@CHARACTER_SET_RESULTS */;

/*!40101 SET @OLD_COLLATION_CONNECTION=@@COLLATION_CONNECTION */;

/*!40101 SET NAMES utf8 */;

/*!40014 SET @OLD_FOREIGN_KEY_CHECKS=@@FOREIGN_KEY_CHECKS, FOREIGN_KEY_CHECKS=0 */;

/*!40101 SET @OLD_SQL_MODE=@@SQL_MODE, SQL_MODE='NO_AUTO_VALUE_ON_ZERO' */;

/*!40111 SET @OLD_SQL_NOTES=@@SQL_NOTES, SQL_NOTES=0 */;

# Dump of table content

# ------------------------------------------------------------

DROP TABLE IF EXISTS `content`;

CREATE TABLE `content` (

  `id` int(11) unsigned NOT NULL AUTO_INCREMENT,

  `depth` int(11) DEFAULT NULL,

  `url` varchar(200) DEFAULT NULL,

  `article_title` varchar(20) DEFAULT NULL,

  `article_headimg` varchar(150) DEFAULT NULL,

  `article_author` varchar(20) DEFAULT NULL,

  `article_content` text,

  `article_publish_time` int(10) DEFAULT NULL,

  PRIMARY KEY (`id`)

) ENGINE=InnoDB DEFAULT CHARSET=utf8;

/*!40111 SET SQL_NOTES=@OLD_SQL_NOTES */;

/*!40101 SET SQL_MODE=@OLD_SQL_MODE */;

/*!40014 SET FOREIGN_KEY_CHECKS=@OLD_FOREIGN_KEY_CHECKS */;

/*!40101 SET CHARACTER_SET_CLIENT=@OLD_CHARACTER_SET_CLIENT */;

/*!40101 SET CHARACTER_SET_RESULTS=@OLD_CHARACTER_SET_RESULTS */;

/*!40101 SET COLLATION_CONNECTION=@OLD_COLLATION_CONNECTION */;


* 创建./index.php

<?php

require './vendor/autoload.php';

use phpspider\core\phpspider;

$configs = [

    'name' => '糗事百科',

    'domains' => [

        'qiushibaike.com',

        'www.qiushibaike.com'

    ],

    'scan_urls' => [

        'http://www.qiushibaike.com/'

    ],

    'content_url_regexes' => [

        "http://www.qiushibaike.com/article/\d+"

    ],

    'list_url_regexes' => [

        "http://www.qiushibaike.com/8hr/page/\d+\?s=\d+"

    ],

    'fields' => [

        [

            // 抽取内容页的文章内容

            'name' => "article_content",

            'selector' => "//*[@id='single-next-link']",

            'required' => true

        ],

        [

            // 抽取内容页的文章作者

            'name' => "article_author",

            'selector' => "//div[contains(@class,'author')]//h2",

            'required' => true

        ],

    ],

    'log_show' => true,

    'input_encoding' => 'utf-8',

    'output_encoding' => 'utf-8',

    'db_config' => [

        'host' => '127.0.0.1',

        'user' => 'root',

        'pass' => '',

        'name' => 'demo',

        'port' => 3306

    ],

    /*

    'export' => [

        'type' => 'sql',

        'file' => './data/sql/qiushibaike.sql'

    ]

    */

    'export' => [

        'type' => 'db',

        'table' => 'content',

    ]

];

$spider = new phpspider($configs);

$spider->start();

* Run

php ./index.php

phpspider PHP 爬虫的更多相关文章

phpspider php爬虫框架
其实我自身的不是经常写正则,而且不规则的html去写正则本身就是件很麻烦的事情,如果页面有些微变动和更新就得再次去维护正则表达式,其实是非常蛋疼的我第一感觉就是去找一下爬虫的库,但是发现现在php爬 ...
关于php网络爬虫phpspider。
前几天,被老板拉去说要我去抓取大众点评某家店的数据,当然被我义正言辞的拒绝了,理由是我不会...但我的反抗并没有什么卵用,所以还是乖乖去查资料,因为我是从事php工作的,首先找的就是php的网络爬虫源 ...
关于php网络爬虫phpspider
前几天,被老板拉去说要我去抓取大众点评某家店的数据,当然被我义正言辞的拒绝了,理由是我不会...但我的反抗并没有什么卵用,所以还是乖乖去查资料,因为我是从事php工作的,首先找的就是php的网络爬虫源 ...
phpspider爬虫框架的使用
这几天使用PHP的爬虫框架爬取了一些数据,发现还是挺方便的,先上爬虫框架的文档 phpspider框架文档使用方法其实在文档中写的很清楚而且在demo中也有使用示例,这里放下我自己的代码做个笔记 & ...
php爬虫 phpspider
<?php /** * Created by PhpStorm. * User: brady * Date: 2016/12/9 * Time: 17:32 */ ini_set("m ...
[爬虫资源]各大爬虫资源大汇总,做我们自己的awesome系列
大数据的流行一定程序导致的爬虫的流行,有些企业和公司本身不生产数据,那就只能从网上爬取数据,笔者关注相关的内容有一定的时间,也写过很多关于爬虫的系列,现在收集好的框架希望能为对爬虫有兴趣的人,或者 ...
php 爬虫框架
发现两款不错的爬虫框架,极力推荐下: phpspider 一款优秀的PHP开发蜘蛛爬虫官方下载地址:https://github.com/owner888/phpspider 官方开发手册:http ...
利用phpspider爬取网站数据
本文实例原址:PHPspider爬虫10分钟快速教程在我们的工作中可能会涉及到要到其它网站去进行数据爬取的情况,我们这里使用phpspider这个插件来进行功能实现. 1.首先,我们需要php环境, ...
php爬虫最最最最简单教程
php爬虫最最最最简单教程一.总结一句话总结:用的爬虫框架,却是用的自己的例子(因为网站结构的变化,作者的例子不一定好用) 爬虫框架自己例子 1.发现自己的运行效果和作者的不一样怎么办? 耐下性 ...

随机推荐

STM32—串口使用总结
文章目录一.仅向上位机打印调试信息二.与上位机交互信息三.作为驱动接口四.结合DMA接收数据帧在日常学习中,串口经常作为和上位机通信的接口,进行打印信息方便调试程序,有时也会作为模块的驱动接 ...
ASP.NET Core教程：ASP.NET Core程序部署到Linux
一.前言这篇文章我们将讲解如何将ASP.NET Core 程序部署到Linux.这里我们使用的是虚拟机里面安装的Centos7.这里的ASP.NET Core程序,以上篇文章中发布的框架依赖文件为例 ...
【springboot】事务处理
转自: https://blog.csdn.net/cp026la/article/details/86496788 扯淡: 复杂的业务逻辑中一个请求可能需要多次操作数据库,要保证一个Service ...
FileUtils常用方法 - commons-io常用工具类
FileUtils常用常量 public static final long ONE_KB = 1024; public static final BigInteger ONE_KB_BI = Big ...
二 MongoDB数据类型和$type操作符
一.MongoDB中可以使用的类型如下表所示二.$type操作符举个例子:想获取指定集合中title为String类型的所有文档
jQuery中的基本过滤选择器（四、三）：:first、:last、:not() ... ...
<!DOCTYPE html> <html> <head> <title>基本过滤选择器</title> <meta http-equ ...
servlet中servletContext的五大作用（二）
1. 获取web的上下文路径 2. 获取全局的参数 3. 作为域对象使用 4. 请求转发 5. 读取web项目的资源文件 package day10.about_serv ...
关于ubuntu使用的那些事儿
时间:2019-04-09 整理:PangYuaner 标题:Ubuntu18.04安装微信(Linux通用) 地址:https://www.cnblogs.com/dotnetcrazy/p/912 ...
浅谈C#更改令牌ChangeToken
前言在上篇文章浅谈C#取消令牌CancellationTokenSource一文中我们讲解了CancellationTokenSource,它的主要功能就是分发一个令牌,当我取消令牌我可以进行一些回 ...
Java线程池工作原理
前言当项目中有频繁创建线程的场景时,往往会用到线程池来提高效率.所以,线程池在项目开发过程中的出场率是很高的. 那线程池是怎么工作的呢?它什么时候创建线程对象,如何保证线程安全... 什么时候创建线 ...

phpspider PHP 爬虫

phpspider PHP 爬虫的更多相关文章

随机推荐

热门专题