curl请求多个url,以前都是使用循环来处理。最近发现可以通过curl_multi_*系列函数来模拟多线程。比对一下,发现如果请求的url只有几个,2种方案耗时差不多,但是url比较多,差距就非常明显了。

  先来看下使用for循环的方案: 

 <?php
//for循环 基础方案
$start = microtime(true); header('Content-type:text/html;charset=utf-8'); $arrs = [
'https://www.yahoo.com/',
'http://www.jtthink.com/',
'https://www.hao123.com/',
'http://www.cnblogs.com/loveyouyou616/',
'http://www.qq.com/',
'http://www.sina.com.cn/',
'http://www.163.com/',
'https://www.yahoo.com/',
'http://www.jtthink.com/',
'https://www.hao123.com/',
'http://www.cnblogs.com/loveyouyou616/',
'http://www.qq.com/',
'http://www.sina.com.cn/',
'http://www.163.com/',
'https://www.yahoo.com/',
'http://www.jtthink.com/',
'https://www.hao123.com/',
'http://www.cnblogs.com/loveyouyou616/',
'http://www.qq.com/',
'http://www.sina.com.cn/',
'http://www.163.com/'
]; $headers = array(
'User-Agent:Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/32.0.1700.107 Safari/537.36',
); $mh = curl_multi_init(); foreach ($arrs as $i=>$url){
$ch = curl_init($url);
curl_setopt($ch,CURLOPT_RETURNTRANSFER,1);
curl_setopt($ch, CURLOPT_HTTPHEADER,$headers);
curl_setopt($ch, CURLOPT_HEADER, 0);
curl_setopt($ch, CURLOPT_TIMEOUT, 20); if (strpos($url,'https')){
curl_setopt ( $ch, CURLOPT_SSL_VERIFYPEER, false );
curl_setopt ( $ch, CURLOPT_SSL_VERIFYHOST, 2 );
} $con = curl_exec($ch);
curl_close($ch);
var_dump($con);
} $end = microtime(true) - $start; echo '<br/>';
echo $end; //平均19.002983093262s

  接下来使用curl_multi_* 一次发送多个url请求

  

 <?php
//此模型虽然是一次多个url请求,但缺陷是 要等所有数据请求结束一起返回,才能逐个处理数据。
$start = microtime(true); header('Content-type:text/html;charset=utf-8'); $arrs = [
'https://www.yahoo.com/',
'http://www.jtthink.com/',
'https://www.hao123.com/',
'http://www.cnblogs.com/loveyouyou616/',
'http://www.qq.com/',
'http://www.sina.com.cn/',
'http://www.163.com/',
'https://www.yahoo.com/',
'http://www.jtthink.com/',
'https://www.hao123.com/',
'http://www.cnblogs.com/loveyouyou616/',
'http://www.qq.com/',
'http://www.sina.com.cn/',
'http://www.163.com/',
'https://www.yahoo.com/',
'http://www.jtthink.com/',
'https://www.hao123.com/',
'http://www.cnblogs.com/loveyouyou616/',
'http://www.qq.com/',
'http://www.sina.com.cn/',
'http://www.163.com/'
]; $headers = array(
'User-Agent:Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/32.0.1700.107 Safari/537.36',
); $mh = curl_multi_init(); foreach ($arrs as $i=>$url){
$conn[$i] = curl_init($url);
curl_setopt($conn[$i],CURLOPT_RETURNTRANSFER,1);
curl_setopt($conn[$i], CURLOPT_HTTPHEADER,$headers);
curl_setopt($conn[$i], CURLOPT_HEADER, 0);
curl_setopt($conn[$i], CURLOPT_TIMEOUT, 20); if (strpos($url,'https')){
curl_setopt ( $conn[$i], CURLOPT_SSL_VERIFYPEER, false );
curl_setopt ( $conn[$i], CURLOPT_SSL_VERIFYHOST, 2 );
}
curl_multi_add_handle($mh,$conn[$i]);
} $active = null;
/*
* 这样写会轻易导致CPU占用100% do {
$n=curl_multi_exec($mh,$active);
} while ($active);
*
*/ //改写
/*
do {
$mrc = curl_multi_exec($mh,$active);
}while($mrc == CURLM_CALL_MULTI_PERFORM); while ($active and $mrc == CURLM_OK){
if (curl_multi_select($mh) != -1) {
do {
$mrc = curl_multi_exec($mh, $active);
} while ($mrc == CURLM_CALL_MULTI_PERFORM);
}
}
*/ //最简单方案
do {
curl_multi_exec($mh, $running);
curl_multi_select($mh);
} while ($running > 0); //获取内容
foreach ($arrs as $i => $url) {
$res[$i]=curl_multi_getcontent($conn[$i]);
var_dump($res[$i]);
curl_close($conn[$i]);
//等待所有http请求结束返回数据依次生成文件。
file_put_contents('curl_multi.log',$res[$i]."\r\n\r\n\r\n\r\n",FILE_APPEND);
} $end = microtime(true) - $start; echo '<br/>';
echo $end; // 平均 10.091157913208s

  执行上面2段代码,可以发现使用curl_multi_*系列函数来处理,效率明显高不少。

  但是上面的模型也存在一个问题,返回的时间依赖最长的请求,通俗的说就是结果数据要等所有http请求结束后一起返回,然后逐个处理数据。

通过curl模拟多线程抓取网页(curl_multi_*)的更多相关文章

  1. curl模拟多线程抓取网页(优化)

    通过上篇文章清楚了通过curl_multi_*函数可以一次请求多个url,但是也留下了问题,就是结果要等所有数据请求结束一起返回,才能逐个处理数据.优化代码,使先成功请求的url先返回处理结果,而不是 ...

  2. PHP利用Curl实现多线程抓取网页和下载文件

    PHP 利用 Curl  可以完成各种传送文件操作,比如模拟浏览器发送GET,POST请求等等,然而因为php语言本身不支持多线程,所以开发爬虫程序效率并不高,一般采集 数据可以利用 PHPquery ...

  3. php curl_multi系列函数实现多线程抓取网页

    最近几天在做一个多搜索引擎关键字排名查询工具,用于及时方便的了解关键词在各大搜索引擎的排名. 在抓取360搜索的时候,发现360搜索每页只支持显示10个搜索结果,如果想获取100个搜索结果数据,就得搜 ...

  4. PHP的cURL库:抓取网页,POST数据及其他,HTTP认证 抓取数据

    From : http://developer.51cto.com/art/200904/121739.htm 下面是一个小例程: ﹤?php// 初始化一个 cURL 对象$curl = curl_ ...

  5. HttpClient(二)-- 模拟浏览器抓取网页

    一.设置请求头消息 User-Agent模拟浏览器 1.当使用第一节的代码 来 访问推酷的时候,会返回给我们如下信息: 网页内容:<!DOCTYPE html> <html> ...

  6. php curl多线程抓取网页

    PHP 利用 Curl Functions 可以完成各种传送文件操作,比如模拟浏览器发送GET,POST请求等等,受限于php语言本身不支持多线程,所以开发爬虫程序效率并不高,这时候往往需 要借助Cu ...

  7. 简单的使用php多线程抓取网页

    PHP 利用 Curl Functions 可以完成各种传送文件操作,比如模拟浏览器发送GET,POST请求等等,受限于php语言本身不支持多线程,所以开发爬虫程序效率并不高,这时候往往需 要借助Cu ...

  8. 使用PHP curl模拟浏览器抓取网站信息

    curl是一个利用URL语法在命令行方式下工作的文件传输工具.curl是一个利用URL语法在命令行方式下工作的文件传输工具.它支持很多协议:FTP, FTPS, HTTP, HTTPS, GOPHER ...

  9. linux中使用wget模拟爬虫抓取网页

    如何在linux上或者是mac上简单使用爬虫或者是网页下载工具呢,常规的我们肯定是要去下载一个软件下来使用啦,可怜的这两个系统总是找不到相应的工具,这时wget出来帮助你啦!!!wget本身是拿来下载 ...

随机推荐

  1. errno.h的数字对应的字符串错误

    #ifndef _I386_ERRNO_H #define _I386_ERRNO_H #define EPERM 1 /* Operation not permitted */ #define EN ...

  2. oracle之 监听器无法启动的几个原因总结

    1)防火墙没关 2)/etc/hosts配置问题,有可能误删了127.0.0.1的默认记录,添加默认记录 [root@rac02 ~]# cat /etc/hosts127.0.0.1 localho ...

  3. load/domContentLoaded事件、异步/延迟Js 与DOM解析

    一.DOMContentLoaded 与 load事件 关于load和DOMContentLoaded事件,mdn对于它们是这样描述的: DOMContentLoaded mdn文档地址:https: ...

  4. centos 安装tomcat 7为服务

    3:安装Tomcat 下载apache-tomcat-7.0.33.tar.gz.解压缩: tar -xzvf apache-tomcat-7.0.33.tar.gz 将解压缩后的文件夹拷贝到/usr ...

  5. 指向NULL的类

    引出:写个类A,声明类A指针指向NULL,调用类A的方法会有什么后果,编译通过吗,运行会通过吗? (在VS2008与VC++的情况下) 有错误欢迎批评指正! #include<stdio.h&g ...

  6. Quick guide for converting from JAGS or BUGS to NIMBLE

    Converting to NIMBLE from JAGS, OpenBUGS or WinBUGS NIMBLE is a hierarchical modeling package that u ...

  7. 关于layoutparam 请铭记。。。。

    //rl_pager 是RelativeLayout findViewById(R.id.rl_pager).setLayoutParams(new RelativeLayout.LayoutPara ...

  8. LAMP的安装和注意事项

    LAMP--Linux+Apache(httpd)+MySQL+PHP,是常用的web服务器架构,下面接受编译安装的过程,以及出现的错误. 注意事项: 1. 扩展epel源:参照:http://www ...

  9. 自动手动随便你 Win7驱动程序安装自己设

    Win7系统是非常智能方便的操作系统,可以自动安装硬件驱动程序,为用户提供了很多方便.但是并不是所有的驱动程序和硬件都能完美兼容,如果不合适就需要卸载了重新安装:还有一些朋友就习惯自己安装驱动,那么, ...

  10. Java 序列化接口Serializable详解

    一个对象序列化的接口,一个类只有实现了Serializable搜索接口,它的对象才是可序列化的.因此如果要序列化某些类的对象,这些类就必须实现Serializable接口.而实际上,Serializa ...