我用爬虫一天时间“偷了”知乎一百万用户，只为证明PHP是世界上最好的语言

2015-08-06 猿圈

我用爬虫一天时间“偷了”知乎一百万用户

只为证明PHP是世界上最好的语言

看了不少朋友圈里推荐的Python爬虫文章，都觉得太小儿科，处理内容本来就是PHP的强项，Python唯一的好处估计也就天生的Linux自带，和Perl一样，这点觉得挺不够意思的 Linux，还是Mac厚道，天生就自带了Python、Perl、PHP、Ruby，当然我也很讨厌讨论一门语言的好坏，每门语言存在就一定有它的道理，反正PHP是全世界最好用的语言，大家都懂的！

前几天比较火的是一个人，用C#写了一个多线程爬虫程序，抓取了QQ空间3000万QQ用户，其中有300万用户是有QQ号、昵称、空间名称等信息的，也就是说，有详情也就300万，跑了两周，这没什么，为了证明PHP是全世界最好的语言，虽然大家都懂的^_^，我用PHP写了一个多进程爬虫程序，只用了一天时间，就抓了知乎100万用户，目前跑到第8圈(depth=8)互相有关联(关注了和关注者)的用户。

爬虫程序设计

因为知乎需要登录才能获取到关注者页面，所以从chrome登录之后把cookie拷贝下来给curl程序模拟登录。

使用两大独立循环进程组(用户索引进程组、用户详情进程组)，用的是php的pcntl扩展，封装了一个非常好用的类，使用起来和golang的携程也差不多了。

下面是用户详情的截图，用户索引代码类似

这里插个题外话，经过测试，我的8核的Macbook，跑16进程的速度最快，而16核的Linux服务器，居然是跑8进程最快，这点有点让我莫名其妙了，不过既然测试出最后进程数，就按照最后设置就好啦。

1、用户索引进程组先以一个用户为起点，抓取这个用户的关注了和关注者，然后合并入库，因为是多进程，所以当有两个进程在处理同一个用户入库的时候就会出现重复的用户，所以数据库用户名字段一定要建立唯一索引，当然也可以用redis这些第三方缓存来保证原子性，这个就见仁见智了。

通过步骤一之后，我们就得到下面的用户列表：

2、用户详情进程组按照时间正序，拿到最先入库的用户抓取详情，并且把更新时间更新为当前时间，这样就可以变成一个死循环，程序可以无休止的跑，不断的循环更新用户信息。

程序稳定运行到第二天，突然没有新数据了，检查了一下发现知乎改规则了，不知是为了防我，还是碰巧，反正给我返回的数据是这样的

第一感觉就是胡乱给我输出数据让我采集不到，换了IP、模拟伪装了些数据，都没用，突然感觉这个很熟悉，会不会是gzip？抱着怀疑的态度，试了试gzip，首先当然是告诉知乎不要给我gzip压缩过的数据

把 ”Accept-Encoding: gzip,deflate\r\n”; 改成 ”Accept-Encoding:deflate\r\n”; 去掉了 gzip，然并卵！

看来知乎是强制要给我gzip压缩数据了，既然如此，那我就解压呗，查了一下php解压gzip，发现就一个函数gzinflate，于是把获取到得内容加上：

$content = substr($content, 10);

$content = gzinflate($content));

这里我真想说，PHP真的是全世界最好的语言，就两个函数，就彻底解决了问题，程序又欢快的跑起来了。

在匹配内容的时候，知乎的细心也是给了我无数的帮助，例如我要分清用户性别：

哈哈开玩笑的拉，其实是样式里面有 icon-profile-female 和 icon-profile-male ^_^

我蛋疼的抓了它那么多用户，到底有什么用呢？

其实没什么用，我就是闲的蛋疼 ^_^

有了这些信息，其实就可以做一些别人开头闭口就乱吹一通的大数据分析拉。最常见的当然是：性别分布、地域分布、职业分布、每个职业的男女比例。

当然，按照关注人数、浏览人数、提问数、回答数等排序，看看人民都在关注什么，民生、社会、地理、政治，整个互联网都尽收眼底拉。

也许，你还可以把头像拿来分析，用开源的验黄程序，把色情的筛选出来，然后去拯救东莞？ ^_^然后，你还可以看看那些大学出来的人，最后都干了什么。

有了这些数据，是不是可以打开脑洞 ^_^

下面是利用这些数据做出来的一些有趣的图表，实时图表数据可以去 http://www.epooll.com/zhihu/ 上看

来源：杨泽涛

java学习 (ID: java4fun)(←长按复制)

专注于 Java 技术分享。

（复制微信号，搜索公众号即可关注）

如何关注

1、将微信升级到最新版本，长按二维码，选择“识别图中二维码”即可关注。

2、若无法识别二维码，在微信界面“添加朋友”项进入“查找公众号”，输入“java学习”，亦可关注。

3、为了大家可以更好的交流java技术，可以加入qq群：432784980 “java学习”。

推荐文章：

《招聘一个靠谱的iOS》—参考答案（上）

点击阅读原文查看

我用爬虫一天时间“偷了”知乎一百万用户，只为证明PHP是世界上最好的语言的更多相关文章

【2022知乎爬虫】我用Python爬虫爬了2300多条知乎评论！
您好,我是 @马哥python说,一枚10年程序猿. 一.爬取目标前些天我分享过一篇微博的爬虫: https://www.cnblogs.com/mashukui/p/16414027.html 但 ...
程序员的一生时间90%是用在编程上，而剩余的10%是活在世界上。刚进CSDN的博客看到这么句话
程序员的一生时间90%是用在编程上,而剩余的10%是活在世界上. 而自己呢?是个程序员呢还是个业余玩家!
Linux时间子系统之（三）：用户空间接口函数
专题文档汇总目录 Notes:用户空间时间相关接口函数: 类型 API 精度说明时间 time stime time_t 精度为秒级逐渐要被淘汰.需要定义__ARCH_WANT_SYS_TIME ...
python 爬虫数据处理字符串时间转换格式方法
startDate = "2018-10-01"endDate = "2018-10-31" ###字符转化为日期startTime = datetime.da ...
python爬虫beta版之抓取知乎单页面回答（low 逼版）
闲着无聊,逛知乎.发现想找点有意思的回答也不容易,就想说要不写个爬虫帮我把点赞数最多的给我搞下来方便阅读,也许还能做做数据分析(意淫中--) 鉴于之前用python写爬虫,帮运营人员抓取过京东的商品品 ...
JAVA爬虫实践（实践一：知乎）
爬虫顺序 1.分析网站网络请求通过浏览器F12开发者工具查看网站的内容获取方式. 2.模拟HTTP请求,获取网页内容. 可以采用HttpClient,利用JAVA HttpClient工具可以模拟H ...
Python爬虫入门教程 35-100 知乎网全站用户爬虫 scrapy
爬前叨叨全站爬虫有时候做起来其实比较容易,因为规则相对容易建立起来,只需要做好反爬就可以了,今天咱们爬取知乎.继续使用scrapy当然对于这个小需求来说,使用scrapy确实用了牛刀,不过毕竟本博客 ...
如何设置IIS程序池的回收时间，才能最大程度的减少对用户的影响?
作为.Net开发人员,其实对IIS的应用程序池知之甚少,在工作中我也有几次遇到过网站无故打不开的情况,找了半天原因也找不到是怎么造成的,有一次我给网站找了一个程序程序池后发现就能正常访问了,这也让我对 ...
python scrapy简单爬虫记录(实现简单爬取知乎)
之前写了个scrapy的学习记录,只是简单的介绍了下scrapy的一些内容,并没有实际的例子,现在开始记录例子使用的环境是python2.7, scrapy1.2.0 首先创建项目在要建立项目的目 ...

随机推荐

java学会需要掌握的知识(来源网上。。)
Java就业指导 2016-03-22 骆昊程序人生点击上方"程序人生"关注我们想要成为合格的Java程序员或工程师到底需要具备哪些专业技能,面试者在面试之前到底需要准备哪些 ...
mysql函数全解析
本文摘自:http://www.cnblogs.com/cocos/archive/2011/05/06/2039469.html mysql函数大全对于针对字符串位置的操作,第一个位置被标记为1. ...
SQL实现递归及存储过程中In()参数传递解决方案[转]
SQL实现递归及存储过程中In()参数传递解决方案 1.SQL递归在SQL Server中,我们可以利用表表达式来实现递归算法,一般用于阻止机构的加载及相关性处理. -->实现: 假设 ...
python读取Excel
import xlrd # 读取Excel文件 workbook = xlrd.open_workbook(r'E:\2015.xls') # 读取Excel的sheet名字 sheet_names ...
我和Python的第一次亲密接触 - 零基础入门学习Python001
我和Python的第一次亲密接触让编程改变世界 Change the world by program 小甲鱼经常说,学习一门编程语言就是要深入其中,要把编程语言想象为你的女朋友你的情人,这样你学习 ...
ES6新特性-------解构、参数、模块和记号（续）
六.解构解构提供了一个方便的地从对象或数组中提取数据的方法,请看下面的例子: //ES6 let [x,y]=[1,2];//x=1,y=2 //ES5 var arr=[1,2]; var x=a ...
Mysql基础教程——mysql之一
教程列表:http://www.dxzy163.com/view/index7627.html 41 存储过程 40 全文索引与停止词 39 索引的管 38 索引概念 37 数据库备份与恢复 36 事 ...
对发给Application.Handle消息的三次执行(拦截)消息的过程
unit Main; interface uses SysUtils, WinTypes, WinProcs, Messages, Classes, Graphics, Controls, Forms ...
POJ 2533 Longest Ordered Subsequence - from lanshui_Yang
题目大意:求一个数列的最长上升子序列(严格上升). 解题思路: 方法一:O(n^2) dp[i]:表示处理到第i个位置,序列的最长上升子序列末尾为i的长度: a[]数组存储原序列 dp[i] = ma ...
Eclipse总是自动关闭
-Dosgi.requiredJavaVersion=1.5把INI文件中的这一行删除掉,貌似这样以后模拟器也没再出现timeout的问题了,O(∩_∩)O哈哈~

我用爬虫一天时间“偷了”知乎一百万用户，只为证明PHP是世界上最好的语言

我用爬虫一天时间“偷了”知乎一百万用户，只为证明PHP是世界上最好的语言

我用爬虫一天时间“偷了”知乎一百万用户，只为证明PHP是世界上最好的语言的更多相关文章

随机推荐

热门专题