基于 PHP 的数据爬取（QueryList）

基于PHP的数据爬取

简单、灵活、强大的PHP采集工具，让采集更简单一点。

简介：

QueryList使用jQuery选择器来做采集，让你告别复杂的正则表达式；QueryList具有jQuery一样的DOM操作能力、Http网络操作能力、乱码解决能力、内容过滤能力以及可扩展能力；可以轻松实现诸如：模拟登陆、伪造浏览器、HTTP代理等意复杂的网络请求；拥有丰富的插件，支持多线程采集以及使用PhantomJS采集JavaScript动态渲染的页面。

安装

通过Composer安装:

composer require jaeger/querylist

使用教程：

直接上代码：

  <?php

include './vendor/autoload.php';

// 使用composer安装后引入目录

use QL\QueryList;

// 使用插件

$html = file_get_contents('https://www.biqudu.com/14_14778/');

// 手动获取页面

$data = QueryList::html($html);

// 得到页面内容

$data = QueryList::setHtml('https://www.biqudu.com/14_14778/');

// 等同于上面的html()

$data->rules([

	// 采集所有a标签的href属性

    'link' => ['a','href'],

    // 采集所有a标签的文本内容

    'text' => ['a','text']

	]);

// 此处$data = 上面已经获取到网页内容之后的对象

// 设置采集规则 替代了传统正则

$data->query();

// 此处$data = 上面已经获取到网页内容之后的对象

// query 执行操作

$data->getData();

// 此处$data = 上面已经获取到网页内容之后的对象

// 得到数据结果

$data->all();

// 此处$data = 上面已经获取到网页内容之后的对象

// 将数据转换成二维数组

print_r($data->all());

// 打印结果

上面的基本使用方法就是这样了这样我们已经可以抓取到一定的数据了

如果你对爬取数据感兴趣欢迎前往官网查看文档超级传送门（点我）

基于 PHP 的数据爬取（QueryList）的更多相关文章

requests模块处理cookie,代理ip，基于线程池数据爬取
引入有些时候,我们在使用爬虫程序去爬取一些用户相关信息的数据(爬取张三“人人网”个人主页数据)时,如果使用之前requests模块常规操作时,往往达不到我们想要的目的. 一.基于requests模块 ...
requests模块session处理cookie 与基于线程池的数据爬取
引入有些时候,我们在使用爬虫程序去爬取一些用户相关信息的数据(爬取张三“人人网”个人主页数据)时,如果使用之前requests模块常规操作时,往往达不到我们想要的目的,例如: #!/usr/bin/ ...
scrapy框架基于CrawlSpider的全站数据爬取
引入提问:如果想要通过爬虫程序去爬取”糗百“全站数据新闻数据的话,有几种实现方法? 方法一:基于Scrapy框架中的Spider的递归爬取进行实现(Request模块递归回调parse方法). 方法 ...
基于CrawlSpider全栈数据爬取
CrawlSpider就是爬虫类Spider的一个子类使用流程创建一个基于CrawlSpider的一个爬虫文件 :scrapy genspider -t crawl spider_name www ...
Scrapy框架爬虫初探——中关村在线手机参数数据爬取
关于Scrapy如何安装部署的文章已经相当多了,但是网上实战的例子还不是很多,近来正好在学习该爬虫框架,就简单写了个Spider Demo来实践.作为硬件数码控,我选择了经常光顾的中关村在线的手机页面 ...
Scrapy 框架 CrawlSpider 全站数据爬取
CrawlSpider 全站数据爬取创建 crawlSpider 爬虫文件 scrapy genspider -t crawl chouti www.xxx.com import scrapy fr ...
人人贷网的数据爬取（利用python包selenium）
记得之前应同学之情,帮忙爬取人人贷网的借贷人信息,综合网上各种相关资料,改善一下别人代码,并能实现数据代码爬取,具体请看我之前的博客:http://www.cnblogs.com/Yiutto/p/5 ...
移动端数据爬取和Scrapy框架
移动端数据爬取注:抓包工具:青花瓷 1.配置fiddler 2.移动端安装fiddler证书 3.配置手机的网络 - 给手机设置一个代理IP:port a. Fiddler设置打开Fiddler软 ...
小爬爬5:重点回顾&&移动端数据爬取1
1. ()什么是selenium - 基于浏览器自动化的一个模块 ()在爬虫中为什么使用selenium及其和爬虫之间的关联 - 可以便捷的获取动态加载的数据 - 实现模拟登陆 ()列举常见的sele ...

随机推荐

【Spark篇】---SparkStreaming+Kafka的两种模式receiver模式和Direct模式
一.前述 SparkStreamin是流式问题的解决的代表,一般结合kafka使用,所以本文着重讲解sparkStreaming+kafka两种模式. 二.具体 1.Receiver模式原理图 ...
【机器学习】--线性回归中soft-max从初始到应用
一.前述 Soft-Max是做多分类的,本身是哪个类别的概率大,结果就为对应的类别.为什么称之为Soft判别,原因是归一化之后的概率选择最大的作为结果,而不是只根据分子. 二.原理 sigmod函数: ...
Java8 新特性 | 如何风骚走位防止空指针异常
文章整理翻译自 https://winterbe.com/posts/2015/03/15/avoid-null-checks-in-java/ 文章首发于个人网站: https://www.exce ...
前端（各种demo）二：左侧导航栏的折叠和打开（不使用js）基础版和升级版
1.给div设置定位. 复习一下—— css中position有五种属性: static:默认值,没有定位 absolute:绝对定位,相对于父级元素进行定位 relative:相对定位 fixed: ...
ReentrantLock 实现原理
使用 synchronize 来做同步处理时,锁的获取和释放都是隐式的,实现的原理是通过编译后加上不同的机器指令来实现. 而 ReentrantLock 就是一个普通的类,它是基于 AQS(Abstr ...
[我的理解]Javascript的原型与原型链
一.原型与原型链的定义原型:为其他对象提供共享属性的对象注:当构造器创建一个对象,为了解决对象的属性引用,该对象会隐式引用构造器的"prototype"属性.程序通过const ...
【从零开始自制CPU之学习篇06】寄存器
上一篇文章学习了总线的相关知识,途中ABC当时假设为一个个的8位寄存器.这一篇要学习怎么构建这个寄存器. 这分为两个三个部分,数据输入,寄存器,数据输出.首先不管输出,来看数据输入和寄存器这两个部分. ...
qt 标签 QTextBrowser QLabel
使用标签控件时我首先想到的就是QLabel,QLabel支持自动换行,并可以解析富文本,是一个不错的选择,这也使的我并没有去深入了解其他的可以有同样效果的控件,本篇文字我也主要是讲解标签的用法,可以 ...
SpringBoot入门教程(二)CentOS部署SpringBoot项目从0到1
在之前的博文<详解intellij idea搭建SpringBoot>介绍了idea搭建SpringBoot的详细过程, 并在<CentOS安装Tomcat>中介绍了Tomca ...
MySQL系列--1.安装卸载与用户权限管理
MySQL安装 1.Ubuntu18下安装MySQL sudo apt-get install mysql-server MySQL的版本为5.7.25 2.登录MySQL 采用mysql-serve ...

基于 PHP 的数据爬取（QueryList）

基于PHP的数据爬取

基于 PHP 的数据爬取（QueryList）的更多相关文章

随机推荐

热门专题