基于 PHP 的数据爬取（QueryList）

基于PHP的数据爬取

简单、灵活、强大的PHP采集工具，让采集更简单一点。

简介：

QueryList使用jQuery选择器来做采集，让你告别复杂的正则表达式；QueryList具有jQuery一样的DOM操作能力、Http网络操作能力、乱码解决能力、内容过滤能力以及可扩展能力；可以轻松实现诸如：模拟登陆、伪造浏览器、HTTP代理等意复杂的网络请求；拥有丰富的插件，支持多线程采集以及使用PhantomJS采集JavaScript动态渲染的页面。

安装

通过Composer安装:

composer require jaeger/querylist

使用教程：

直接上代码：

  <?php

include './vendor/autoload.php';

// 使用composer安装后引入目录

use QL\QueryList;

// 使用插件

$html = file_get_contents('https://www.biqudu.com/14_14778/');

// 手动获取页面

$data = QueryList::html($html);

// 得到页面内容

$data = QueryList::setHtml('https://www.biqudu.com/14_14778/');

// 等同于上面的html()

$data->rules([

	// 采集所有a标签的href属性

    'link' => ['a','href'],

    // 采集所有a标签的文本内容

    'text' => ['a','text']

	]);

// 此处$data = 上面已经获取到网页内容之后的对象

// 设置采集规则 替代了传统正则

$data->query();

// 此处$data = 上面已经获取到网页内容之后的对象

// query 执行操作

$data->getData();

// 此处$data = 上面已经获取到网页内容之后的对象

// 得到数据结果

$data->all();

// 此处$data = 上面已经获取到网页内容之后的对象

// 将数据转换成二维数组

print_r($data->all());

// 打印结果

上面的基本使用方法就是这样了这样我们已经可以抓取到一定的数据了

如果你对爬取数据感兴趣欢迎前往官网查看文档超级传送门（点我）

基于 PHP 的数据爬取（QueryList）的更多相关文章

requests模块处理cookie,代理ip，基于线程池数据爬取
引入有些时候,我们在使用爬虫程序去爬取一些用户相关信息的数据(爬取张三“人人网”个人主页数据)时,如果使用之前requests模块常规操作时,往往达不到我们想要的目的. 一.基于requests模块 ...
requests模块session处理cookie 与基于线程池的数据爬取
引入有些时候,我们在使用爬虫程序去爬取一些用户相关信息的数据(爬取张三“人人网”个人主页数据)时,如果使用之前requests模块常规操作时,往往达不到我们想要的目的,例如: #!/usr/bin/ ...
scrapy框架基于CrawlSpider的全站数据爬取
引入提问:如果想要通过爬虫程序去爬取”糗百“全站数据新闻数据的话,有几种实现方法? 方法一:基于Scrapy框架中的Spider的递归爬取进行实现(Request模块递归回调parse方法). 方法 ...
基于CrawlSpider全栈数据爬取
CrawlSpider就是爬虫类Spider的一个子类使用流程创建一个基于CrawlSpider的一个爬虫文件 :scrapy genspider -t crawl spider_name www ...
Scrapy框架爬虫初探——中关村在线手机参数数据爬取
关于Scrapy如何安装部署的文章已经相当多了,但是网上实战的例子还不是很多,近来正好在学习该爬虫框架,就简单写了个Spider Demo来实践.作为硬件数码控,我选择了经常光顾的中关村在线的手机页面 ...
Scrapy 框架 CrawlSpider 全站数据爬取
CrawlSpider 全站数据爬取创建 crawlSpider 爬虫文件 scrapy genspider -t crawl chouti www.xxx.com import scrapy fr ...
人人贷网的数据爬取（利用python包selenium）
记得之前应同学之情,帮忙爬取人人贷网的借贷人信息,综合网上各种相关资料,改善一下别人代码,并能实现数据代码爬取,具体请看我之前的博客:http://www.cnblogs.com/Yiutto/p/5 ...
移动端数据爬取和Scrapy框架
移动端数据爬取注:抓包工具:青花瓷 1.配置fiddler 2.移动端安装fiddler证书 3.配置手机的网络 - 给手机设置一个代理IP:port a. Fiddler设置打开Fiddler软 ...
小爬爬5:重点回顾&&移动端数据爬取1
1. ()什么是selenium - 基于浏览器自动化的一个模块 ()在爬虫中为什么使用selenium及其和爬虫之间的关联 - 可以便捷的获取动态加载的数据 - 实现模拟登陆 ()列举常见的sele ...

随机推荐

【Spark篇】---Spark资源调度和任务调度
一.前述 Spark的资源调度是个很重要的模块,只要搞懂原理,才能具体明白Spark是怎么执行的,所以尤其重要. 自愿申请的话,本文分粗粒度和细粒度模式分别介绍. 二.具体 Spark资源调度流程图: ...
Java核心技术及面试指南多线程并发部分的面试题总结以及答案
7.2.10.1有T1.T2.T3三个线程,如何保证T2在T1执行完后执行,T3在T2执行完后执行? 用join语句,在t3开始前join t2,在t2开始前join t1. 不过,这会破坏多线程的并 ...
asp.net core 系列 17 通用主机 IHostBuilder
一.概述 ASP.NET Core 通用主机 (HostBuilder),该主机对于托管不处理 HTTP 请求的应用非常有用.通用主机的目标是将 HTTP 管道从 Web 主机 API 中分离出来,从 ...
从零打卡leetcode之day 2---两数相加
前言就是要把leetcode刷完,每天一道题,每天进步一点点. 从零打卡leetcode之day 2 题目描述: 给定两个非空链表来表示两个非负整数.位数按照逆序方式存储, 它们的每个节点只存储单个 ...
HBase查询优化
1.概述 HBase是一个实时的非关系型数据库,用来存储海量数据.但是,在实际使用场景中,在使用HBase API查询HBase中的数据时,有时会发现数据查询会很慢.本篇博客将从客户端优化和服务端优化 ...
ueditor上传图片尺寸过大导致显示难看的解决办法
昨天遇到这个问题,我也是折腾成了狗, 到处查,最后收集到三个办法,记录一下. 代码贴这里,方便复制 img { max-width: 100%; /*图片自适应宽度*/ } body { overfl ...
Servlet主要相关类核心类容器调用的过程浅析 servlet解读怎么调用 Servlet是什么工作机制
WEB简介 Web项目是 B/S结构浏览器/服务器模式的浏览器发起请求,服务器作出响应请求的发起和响应使用HTTP协议进行通讯所谓协议也就是一种固定格式而Socket是应用 ...
找到bug的根源，问五次为什么
在学习<问题分析与解决>时学到了一种找到问题根源的方法——问五次为什么.具体内容是:当遇到一个问题,不要只看当前答案,要继续往下问,为什么,连问五次,就能够找到更深层次的问题.最近在复盘b ...
[React] 从零开始的react
组件 1. 无状态组件在React中,组件的名字必须用大写字母开头,而包含该组件定义的文件名也应该是大写字母(便于区分,也可以不是). 无状态组件是纯展示组件,仅仅只是用于数据的展示,只根据传入的p ...
(摘)老司机也必须掌握的MySQL优化指南
当 MySQL 单表记录数过大时,增删改查性能都会急剧下降,本文会提供一些优化参考,大家可以参考以下步骤来优化. 单表优化除非单表数据未来会一直不断上涨,否则不要一开始就考虑拆分,拆分会带来逻辑.部 ...

基于 PHP 的数据爬取（QueryList）

基于PHP的数据爬取

基于 PHP 的数据爬取（QueryList）的更多相关文章

随机推荐

热门专题