关于PHP 采集类

伟大的筒子们，我们需要经常采集。

不知道大家每次采集的时候会不会烦躁，不用八爪鱼，不用PYTHON 是不是感到手无力，看到正则匹配每次匹配不对，一换采集内容就是头疼，重新拼写正则？

不要说是高手，就是老手也会烦躁。

今天就在这里我给大家分享一个传说中你要你会能看懂CSS 就会采集的小插件（科技改版生活，懒人改变世界）。

那就是PHPQuery ；扯淡扯累了。直接上说明：

include 'phpQuery.php'; phpQuery::newDocumentFile('http://www.phper.org.cn'); echo pq("title")->text(); // 获取网页标题echo pq("div#header")->html(); // 获取id为header的div的html内容

上例中第一行引入phpQuery.PHP文件，

第二行通过newDocumentFile加载一个文件，

第三行通过pq()函数获取title标签的文本内容，

第四行获取id为header的div标签所包含的HTML内容。

主要做了两个动作，即加载文件和读取文件内容。

二、载入文档（loading documents）

加载文档主要通过phpQuery::newDocument来进行操作，其作用是使得phpQuery可以在服务器预先读取到指定的文件或文本内容。

主要的方法包括：

phpQuery::newDocument($html, $contentType = null)

phpQuery::newDocumentFile($file, $contentType = null)

phpQuery::newDocumentHTML($html, $charset = ‘utf-8′)

phpQuery::newDocumentXHTML($html, $charset = ‘utf-8′)

phpQuery::newDocumentXML($html, $charset = ‘utf-8′)

phpQuery::newDocumentPHP($html, $contentType = null)

phpQuery::newDocumentFileHTML($file, $charset = ‘utf-8′)

phpQuery::newDocumentFileXHTML($file, $charset = ‘utf-8′)

phpQuery::newDocumentFileXML($file, $charset = ‘utf-8′)

phpQuery::newDocumentFilePHP($file, $contentType)

三、pq()函数用法

pq()函数的用法是phpQuery的重点，主要分两部分：即选择器和过滤器

【选择器】

要了解phpQuery选择器的用法，建议先了解jQuery的语法

最常用的语法包括有：

pq('#id')：即以#号开头的ID选择器，用于选择已知ID的容器所包括的内容

pq('.classname')：即以.开头的class选择器，用于选择class匹配的容器内容

pq('parent > child')：选择指定层次结构的容器内容，如：pq('.main > p')用于选择class=main容器的所有p标签

更多的语法请参考jQuery手册

【过滤器】

主要包括：:first,:last,:not,:even,dd,:eq(index),:gt(index),:lt(index),:header,:animated等

如：

pq('p:last')：用于选择最后一个p标签

pq('tr:even')：用于选择表格中偶然行

四、phpQuery连贯操作

pq()函数返回的结果是一个phpQuery对象，可以对返回结果继续进行后续的操作，例如：

pq('a')->attr('href', 'newVal')->removeClass('className')->html('newHtml')->...

详情请查阅jQuery相关资料，用法基本一致，只需要注意.与->的区别即可。

phpQuery-0.9.5.386.zip

286.95 KB, 下载次数: 7, 下载积分: 积分 -1

关于PHP 采集类的更多相关文章

分享一个强大的采集类，还可以模拟php多进程
做采集的时候,可以使用file_get_contents()去获取网页源代码,但是使用file_get_contents采集,速度慢,而且超时时间,不好控制.如果采集的页面不存在,需要等待的时间很长. ...
PHP抓取采集类snoopy介绍
PHP抓取采集类snoopy介绍一个PHP的抓取方案在 2011年07月04日那天写的已经有 10270 次阅读了感谢参考或原文服务器君一共花费了14.288 ms进行了2次 ...
snoopy（强大的PHP采集类）详细介绍
Snoopy是一个php类,用来模拟浏览器的功能,可以获取网页内容,发送表单,可以用来开发一些采集程序和小偷程序,本文章详细介绍snoopy的使用教程. Snoopy的一些特点: 抓取网页的内容 fe ...
PHP采集类：Snoopy.class.php
Snoopy是一个php采集类,用来模拟浏览器获取网页内容和发送表单. 下面是一些Snoopy特性: 容易抓取网页内容容易抓取页面文本(去除HTML标签) 容易抓取网页内链接支持代理抓取支持基本 ...
snoopy 强大的PHP采集类使用实例代码
下载地址: http://www.jb51.net/codes/33397.html Snoopy的一些特点: 1抓取网页的内容 fetch 2 抓取网页的文本内容 (去除HTML标签) fetcht ...
php 采集类snoopy http://www.jb51.net/article/27568.htm | cURL、file_get_contents、snoopy.class.php 优缺点
Snoopy是一个php类,用来模拟浏览器的功能,可以获取网页内容,发送表单. Snoopy的特点: 1.抓取网页的内容 fetch 2.抓取网页的文本内容 (去除HTML标签) fetchtext ...
C#数据采集类
using System; using System.Data; using System.Configuration; using System.Web; using System.Web.Secu ...
PHP SNOOPY采集类总结
1.基础教程 Snoopy的一些特点: 1抓取网页的内容 fetch 2 抓取网页的文本内容 (去除HTML标签) fetchtext 3抓取网页的链接,表单 fetchlinks fetchform ...
让OMCS支持更多的视频采集设备
有些OMCS用户在他的系统使用了特殊的视频采集卡作为视频源(如AV-878采集卡),虽然这些采集卡可以虚拟为一个摄像头,但有些视频采集卡需要依赖于自带了sdk才能正常地完成视频采集工作.在这种情况下, ...

随机推荐

Mysql 用户，权限管理的几点理解。
前两天项目数据库要移植到mysql,为此临时抓了几天很久没用的mysql. 公司的数据库比较简单,从oracle迁移到mysql很简单,但是,中间的权限管理让我感觉既简单又复杂..简单是因为网上关于m ...
Python 爬虫：把廖雪峰教程转换成 PDF 电子书
写爬虫似乎没有比用 Python 更合适了,Python 社区提供的爬虫工具多得让你眼花缭乱,各种拿来就可以直接用的 library 分分钟就可以写出一个爬虫出来,今天尝试写一个爬虫,将廖雪峰老师的 ...
原生JS实现Ajax及Ajax的跨域请求
前言如今,从事前端方面的程序猿们,如果,不懂一些前后台的数据交互方面的知识的话,估计都不太好意思说自己是程序猿.当然,如今有着许多的框架,都有相对应的前后台数据交互的方法. ...
Python基础学习参考（二）：基本语法
一．基本语法既然是学习一门语言,它肯定有区别与其它语言的语法规则,现在就来解释一下python的语法规则是什么? 注释:通过"#"可以对python进行注释,注意是单行注释,如果 ...
使用Identity Server 4建立Authorization Server (3)
预备知识: http://www.cnblogs.com/cgzl/p/7746496.html 第一部分: http://www.cnblogs.com/cgzl/p/7780559.html 第二 ...
asp.net core webapi文件上传
最近开发一个新项目,使用了asp.net core 2.0,采用webapi开发后台,postgresql为数据库.最先来的问题就是上传文件的问题. POST文件的一些坑使用默认模板创建webapi ...
Oracle-1 - ：超级适合初学者的入门级笔记，CRUD,事务，约束 ......
Oracle 更改时间: 2017-10-25 - 21:33:49 2017-10-26 - 11:43:19 2017-10-27 - 19:06:57 2017-10-28 - ...
ldap数据库--ODSEE--卸载
针对ldap实例的卸载,即删除,可以通过管理界面进行操作也可以通过命令行进行操作.卸载顺序为ldap实例--agent--ads.这里主要介绍命令操作步骤 1,ldap实例卸载从ads注销,即不在需 ...
基于QEMU的ARM Cortex-A9开发板Vexpress-ca9的Linux内核的编译和运行
宿主机:Ubuntu16.04 x64(Linux内核4.4.0) 交叉编译工具链:gcc-arm-linux-gnueabiarm-linux-gcc:4.4.3QEMU:2.5.0Linux ke ...
[转载] 详述三种现代JVM语言--Groovy，Scala和Clojure
转载自http://www.tuicool.com/articles/jYzuAv和http://www.importnew.com/1537.html 在我与Martin Fowler曾经合作呈现的 ...

关于PHP 采集类

关于PHP 采集类的更多相关文章

随机推荐

热门专题