curl模拟多线程抓取网页(优化)

　　通过上篇文章清楚了通过curl_multi_*函数可以一次请求多个url,但是也留下了问题，就是结果要等所有数据请求结束一起返回，才能逐个处理数据。优化代码，使先成功请求的url先返回处理结果,而不是等着所有一起返回。

　　注意：这里相对于上一篇文章的模型，总体请求时间并不会太大改变，也许还会变慢(某个请求成功后返回处理数据耗时)。

//修改后的模型

do {

    while (($execrun = curl_multi_exec($mh, $running)) == CURLM_CALL_MULTI_PERFORM) ;

    //CURLM_OK只是意味着数据传送完毕或者没有数据 可传送

    if ($execrun != CURLM_OK)

        break;

    //curl_multi_info_read 查询批处理句柄是否单独的传输线程中有消息或信息返回。

    while ($done = curl_multi_info_read($mh)) {

        $info = curl_getinfo($done['handle']);

        $tmp_result = curl_multi_getcontent($done['handle']);

        $error = curl_error($done['handle']);

        curl_multi_remove_handle($mh, $done['handle']);

        var_dump($tmp_result);

        //可以观察到，只要有url请求成功，就会把数据返回生成文件。

        file_put_contents('curl_multi2.log',$tmp_result."\r\n\r\n\r\n\r\n",FILE_APPEND);

    }

    if ($running)

        curl_multi_select($mh);

} while ($running);

　　运行php脚本，很快就会看见 .log文件生成并且有对应数据，而不是整个请求结束才生成完整的log。

　　参考：http://my.oschina.net/u/586648/blog/184020

curl模拟多线程抓取网页(优化)的更多相关文章

通过curl模拟多线程抓取网页(curl_multi_*)
curl请求多个url,以前都是使用循环来处理.最近发现可以通过curl_multi_*系列函数来模拟多线程.比对一下,发现如果请求的url只有几个,2种方案耗时差不多,但是url比较多,差距就非常明 ...
PHP利用Curl实现多线程抓取网页和下载文件
PHP 利用 Curl 可以完成各种传送文件操作,比如模拟浏览器发送GET,POST请求等等,然而因为php语言本身不支持多线程,所以开发爬虫程序效率并不高,一般采集数据可以利用 PHPquery ...
php curl_multi系列函数实现多线程抓取网页
最近几天在做一个多搜索引擎关键字排名查询工具,用于及时方便的了解关键词在各大搜索引擎的排名. 在抓取360搜索的时候,发现360搜索每页只支持显示10个搜索结果,如果想获取100个搜索结果数据,就得搜 ...
PHP的cURL库：抓取网页，POST数据及其他,HTTP认证抓取数据
From : http://developer.51cto.com/art/200904/121739.htm 下面是一个小例程: ﹤?php// 初始化一个 cURL 对象$curl = curl_ ...
HttpClient（二）-- 模拟浏览器抓取网页
一.设置请求头消息 User-Agent模拟浏览器 1.当使用第一节的代码来访问推酷的时候,会返回给我们如下信息: 网页内容:<!DOCTYPE html> <html> ...
php curl多线程抓取网页
PHP 利用 Curl Functions 可以完成各种传送文件操作,比如模拟浏览器发送GET,POST请求等等,受限于php语言本身不支持多线程,所以开发爬虫程序效率并不高,这时候往往需要借助Cu ...
简单的使用php多线程抓取网页
PHP 利用 Curl Functions 可以完成各种传送文件操作,比如模拟浏览器发送GET,POST请求等等,受限于php语言本身不支持多线程,所以开发爬虫程序效率并不高,这时候往往需要借助Cu ...
使用PHP curl模拟浏览器抓取网站信息
curl是一个利用URL语法在命令行方式下工作的文件传输工具.curl是一个利用URL语法在命令行方式下工作的文件传输工具.它支持很多协议:FTP, FTPS, HTTP, HTTPS, GOPHER ...
linux中使用wget模拟爬虫抓取网页
如何在linux上或者是mac上简单使用爬虫或者是网页下载工具呢,常规的我们肯定是要去下载一个软件下来使用啦,可怜的这两个系统总是找不到相应的工具,这时wget出来帮助你啦!!!wget本身是拿来下载 ...

随机推荐

SpringDataJPA最佳实践（一）简介
在团队中使用SpringDataJPA有一段时间了,也踩过一些坑,这里记录一下学习历程. 1.简介 Spring Data是什么 Spring Data是一个用于简化数据库访问,并支持云服务的开源框架 ...
送人玫瑰，手留余香——2015年技术分享交流小结
飞测说:分享让我们更加团结,交流让我们更加凝聚,送人玫瑰,手留余香,更多分享交流也让自己成长的更加完善,2015年已经过去了好几个月,今天刚好整理了下我们科大讯飞武汉测试团队技术分享交流的这块,顺便做 ...
CF1076E：Vasya and a Tree（DFS&差分）
Vasya has a tree consisting of n n vertices with root in vertex 1 1 . At first all vertices has 0 0 ...
20155230 2016-2017-2 《Java程序设计》第八周学习总结
20155230 2016-2017-2 <Java程序设计>第八周学习总结教材学习内容总结 java.util.logging包提供了日志功能相关类与接口,使用日志的起点是logger ...
JS 实战2（邮箱选人功能）
点击选人打开新的窗口,新窗口中选取之后点击确定将所选内容传给原窗口,并关闭当前窗口 <%@ Page Language="C#" AutoEventWireup=" ...
0302 IT行业就业与软件工程
阅读以下文章 http://www.thea.cn/news/terminal/9/9389.html http://www.shzhidao.cn/system/2015/09/22/0102610 ...
php浮点数比较
本文实例讲述了PHP中两个float(浮点数)比较方法.分享给大家供大家参考.具体如下: 最近在开发一个合同管理系统的时候,涉及到两个浮点数比较,算是把我郁闷惨了.在N久以前,就不晓得从哪里听来的一个 ...
Javascript 全局函数是 window 的函数
比如以下函数,看起来不属于任何对象,但它是一个全局对象. 它属于 HTML页面的函数. function myFunction(a, b){ return a * b; } window.myFunc ...
HQL语句：三表查询（一对多，一对多）
实体类:CrmDepartment package com.learning.crm.department.domain; import java.util.HashSet; import java. ...
TS流解析三
应该说真正了解TS,还是看了朋友推荐的<数字电视业务信息及其编码>一书之后,MPEG2 TS和数字电视是紧密不可分割的,值得总结一下其中的一些关系. ISO/IEC-13818-1:系统部 ...

curl模拟多线程抓取网页(优化)

curl模拟多线程抓取网页(优化)的更多相关文章

随机推荐

热门专题