phpspider php爬虫框架

其实我自身的不是经常写正则，而且不规则的html去写正则本身就是件很麻烦的事情，如果页面有些微变动和更新就得再次去维护正则表达式，其实是非常蛋疼的

我第一感觉就是去找一下爬虫的库，但是发现现在php爬虫成熟的开源项目还挺多的

最开始我是准备使用phpquery，因为他实现了类似jQuery的功能，可以减少我花费的时间，但是毕竟是6年前的项目，原项目在http://code.google.com/p/phpquery/上，github虽然已经有人copy过去了，

年久失修，因为不是特别好使用，也别现在啥玩意都需要composer安装，没有提交到https://packagist.org，但是现在新项目好多都是基于php7的，有点过时了，

中了一会发现现在phpspider挺好用，注意不是php-spider，而且有中文文档，但是还没有特别完善，https://doc.phpspider.org/

https://github.com/owner888/phpspider

注意：本框架只能在命令行下运行，命令行、命令行、命令行，重要的事情说三遍 ^_^

但是我需要在web下运行，test_requests.php 发现已经实现了css选择器作为替代手写正则表达式的方法，很好，强不强大等用户自己使用过后再自己评价

可以直接在web上运行

use phpspider\core\requests;
use phpspider\core\selector;

引入


 $html = requests::get('http://www.ccmn.cn/');

        $data = selector::select($html, "#40288092327140f601327141c0560001", "css");

        $data1 = selector::select($data, "tr", "css");

        array_shift($data1);

        $array = array();

        if (!empty($data1) && is_array($data1)) {

            foreach ($data1 as $k => &$v) {

                $data2 = selector::select($v, "td", "css");

                foreach ($data2 as $kk => &$vv) {

                    $vv = str_replace('', '', $vv);

                    $vv = str_replace(array("\r\n", "\r", "\n"), "", $vv);

                    $vv = trim($vv);

                }

                $data2['3'] = selector::select($data2['3'], "font", "css");

                unset($data2['6']);

                $array[] = $data2;

            }

就完成了一个还算有一点点复杂的网页固定位置的抓取

很简单对吧

https://doc.phpspider.org/selector.html

官方支持更强大的css选择器，基本常用的足够了

和写jquery的感觉差不多

还有这个是cli运行，

注意不要删了

#/\* Do NOT delete this comment \*/#

#/\* 不要删除这段注释 \*/#

会报错，因为蛋疼去匹配了这些

        if (!preg_match("#/\* Do NOT delete this comment \*/#", $content) || !preg_match("#/\* 不要删除这段注释 \*/#", $content))

        {

            $msg = "Unknown error...";

            log::error($msg);

            exit;

        }

有点强迫症的感觉

源码还没时间读，确实值得一读

目前其他功能测试过在写入博客

phpspider php爬虫框架的更多相关文章

phpspider爬虫框架的使用
这几天使用PHP的爬虫框架爬取了一些数据,发现还是挺方便的,先上爬虫框架的文档 phpspider框架文档使用方法其实在文档中写的很清楚而且在demo中也有使用示例,这里放下我自己的代码做个笔记 & ...
php 爬虫框架
发现两款不错的爬虫框架,极力推荐下: phpspider 一款优秀的PHP开发蜘蛛爬虫官方下载地址:https://github.com/owner888/phpspider 官方开发手册:http ...
php爬虫框架选用什么
php爬虫框架选用什么一.总结一句话总结:phpspider:官方下载地址:https://github.com/owner888/phpspider 1.phpspider能够帮我们解决哪些问题 ...
爬虫框架--webmagic
官方有详细的使用文档:http://webmagic.io/docs/zh/ 简介:这只是个java爬虫框架,具体使用需要个人去定制,没有图片验证,不能获取js渲染的网页,但简单易用,可以通过xpat ...
教你分分钟学会用python爬虫框架Scrapy爬取心目中的女神
本博文将带领你从入门到精通爬虫框架Scrapy,最终具备爬取任何网页的数据的能力.本文以校花网为例进行爬取,校花网:http://www.xiaohuar.com/,让你体验爬取校花的成就感. Scr ...
Python之Scrapy爬虫框架安装及简单使用
题记:早已听闻python爬虫框架的大名.近些天学习了下其中的Scrapy爬虫框架,将自己理解的跟大家分享.有表述不当之处,望大神们斧正. 一.初窥Scrapy Scrapy是一个为了爬取网站数据,提 ...
[开源 .NET 跨平台数据采集爬虫框架: DotnetSpider] [一] 初衷与架构设计
[DotnetSpider 系列目录] 一.初衷与架构设计二.基本使用三.配置式爬虫四.JSON数据解析与配置系统为什么要造轮子同学们可以去各大招聘网站查看一下爬虫工程师的要求,大多是招JA ...
使用Scrapy爬虫框架简单爬取图片并保存本地(妹子图）
初学Scrapy,实现爬取网络图片并保存本地功能一.先看最终效果保存在F:\pics文件夹下二.安装scrapy 1.python的安装就不说了,我用的python2.7,执行命令pip ins ...
【转载】教你分分钟学会用python爬虫框架Scrapy爬取心目中的女神
原文:教你分分钟学会用python爬虫框架Scrapy爬取心目中的女神本博文将带领你从入门到精通爬虫框架Scrapy,最终具备爬取任何网页的数据的能力.本文以校花网为例进行爬取,校花网:http:/ ...

随机推荐

spring mvc 实战化项目之三板斧
laravel实战化项目之三板斧 spring mvc 实战化项目之三板斧 asp.net mvc 实战化项目之三板斧接上文希望从一张表(tb_role_info 用户角色表)的CRUD展开spri ...
【推荐】Hutool 的通用工具类库
摘自3.1.1版本作者发布原话,当时看到有点说不上的情绪,为作者的坚持.热爱点个赞. 已经想不起来是怎样结识 Hutool 的,但 Hutool 伴随几个项目的推进,获得了同事一致好评. 没经过实践和 ...
Navicat http 通道增加验证
ntunnel_mysql.php 中增加 function check() { if (!isset($_SERVER['PHP_AUTH_USER'])) { header('WWW-Authen ...
Redis】Java中使用Jedis操作Redis(Maven导入包)、创建Redis连接池
如果我们使用Java操作Redis, 需要确保已经安装了 redis 服务及 Java redis 驱动. Maven项目可以直接在pom.xml中加入jedis包驱动: <!-- https: ...
css3 box-shadow 使用方法详解
其用法为: 代码如下复制代码 box-shadow: x-offset y-offset blur spread color inset; 上述六个参数含义依次是水平方向的偏移(正值向右偏移,负值 ...
webpack2.x抽取css
这里以.vue文件为例,需要安装extract-text-webpack-plugin包我们主要设置的文件是webpack.config.js文件. 抽取成一个css文件这个设置是提取成一个单独的 ...
logrus日志使用详解
1.logrus特点 golang标准库的日志框架很简单,logrus框架的特点: 1)完全兼容标准日志库六种日志级别:debug, info, warn, error, fatal, panic ...
Python生成随机字符串
利用Python生成随机域名等随机字符串. #!/usr/bin/env python# -*- coding: utf-8 -*- from random import randrange, cho ...
C语言 · 空白格式化
标题:空白格式化 “空白格式化”具体做法是:去掉所有首尾空白:中间的多个空白替换为一个空格.所谓空白指的是:空格.制表符.回车符. 填空为:*p_to<*p_from: #include< ...
go语言的排序和去重
go语言的排序: https://blog.csdn.net/u010983881/article/details/52460998 go语言去重: https://blog.csdn.net/qq_ ...

phpspider php爬虫框架

注意：本框架只能在命令行下运行，命令行、命令行、命令行，重要的事情说三遍 ^_^

phpspider php爬虫框架的更多相关文章

随机推荐

热门专题