本来是想把这部分内容放到前一篇<数据抓取的艺术(二):数据抓取程序优化>之中.但是随着任务的完成,我越来越感觉到其中深深的趣味,现总结如下: (1)时间     时间是一个与抓取规模相形而生的因素,数据规模越大,时间消耗往往越长.所以程序优化变得相当重要,要知道抓取时间越长,出错的可能性就越大,这还不说程序需要人工干预的情境.一旦运行中需要人工干预,时间越长,干预次数越多,出错的几率就更大了.在数据太多,工期太短的情况下,使用多线程抓取,也是一个好办法,但这会增加程序复杂度,对最终数据准确性产…
 数据抓取的艺术(一):Selenium+Phantomjs数据抓取环境配置 2013-05-15 15:08:14 分类: Python/Ruby     数据抓取是一门艺术,和其他软件不同,世界上不存在完美的.一致的.通用的抓取工具.为了不同的目的,需要定制不同的代码.不过,我们不必Start from Scratch,已经有许多的基本工具.基本方法和基础框架可供使用.不同的工具.不同的方法.不同的框架的特点也不同.了解这些工具.方法和框架是首要任务,接下来就需要明白它们的差异都在哪里.什么…
在上卷中我说出两种方法进行数据去重自增,第一种就是在数据库的字段中设置唯一字段,二是在脚本语言中设置重复判断再添加(建议,二者同时使用,真正开发中就会用到) 话不多说先上代码 第一步: 确定那一字段的数据为不可重复数据,我在这个测试表中希望worknum的数据为不可重复数据,现在看下表中数据: 第二步: 测试查询语句: 可以看出查询语句以字符串的形式存在于方法中结果如下: 可以看出数据可以正常查询 第三步: 模拟数据演练,进行判断 我在1处做了组测试数据,可以看到list1里的worknum数据…
原文: http://www.sdnlab.com/12700.html?from=timeline&isappinstalled=0#10006-weixin-1-52626-6b3bffd01fdde4900130bc5a2751b6d1&sukey=fc78a68049a14bb247c537e229e9301ea4dca80236df4f4e775535c08f0a24420a9ac4d726c99dad63a9f6e4c88271ed 真羡慕 google 强大的网络基础设施啊,…
之前发过一篇文章讲解了Charles抓包工具的基本使用(有需要的小伙伴可以去看上一篇文章),  讲的数据包主要是http协议,大家可以看到数据包并直接显示具体详细的内容: 但是如果抓到的是https的报文,是没有办法直接显示的,你将看到的是乱码: 那怎么抓取https的数据报文并正常显示报文内容信息呢? 第一步:安装证书 如果需要抓取并分析 Https 协议的数据报文,需要先安装 Charles 的 CA 证书.具体步骤如下. 1.点击 Charles 的顶部菜单,选择 “Help” –> “S…
使用Fiddler抓取微信饿了么小程序数据 准备 一部装载Android 7.0以下的手机:此处使用华为荣耀5x 微信小程序7.0以下版本:此处为6.6.7.此处可通过豌豆荚应用下载. 安装好的Fiddler软件 良好的wifi 步骤 将手机号电脑连接至同一wifi 配置Fiddler 手机wifi设置代理 (1)选择当前连接的wifi,进入修改wifi (2)主机名为电脑的ip地址,通过ipconfig可以查看到 (3)端口为connections中设置的端口号 手机安装证书 (1)电脑打开F…
上一篇完成了随机UA和随机代理的设置,让爬虫能更稳定的运行,本篇将爬取好的数据进行存储,包括本地文件,关系型数据库(以Mysql为例),非关系型数据库(以MongoDB为例). 实际上我们在编写爬虫rules规则的时候,做了很多的限定,而且没有对翻页进行处理,所以最终提取的信息数量比较少,经我的测试,总共只有4k多条职位.如果要进行数据分析的话,数量量必须要足够,因此我们先将爬虫规则进行修改. 修改lagou_c.py文件rules rules = ( Rule(LinkExtractor(al…
Fiddler抓取https请求 & Fiddler抓包工具常用功能详解   先来看一个小故事: 小T在测试APP时,打开某个页面展示异常,于是就跑到客户端开发小A那里说:“你这个页面做的有问题,页面展示异常”:小A说:“这哪是我的问题,你去找后台吧,后台接口返回数据有问题”:小T就屁颠屁颠的跑到后台接口开发小M那里说:“你接口返回数据有问题,改下吧”:小M看了看服务器日志说:“没找到报错啊,我这里服务正常,你抓个包看下吧”:小T郁闷了,屁颠屁颠的回去了想:“抓包?抓啥包?”: 以上故事,在实在…
fiddler抓包工具 https抓取 ios手机端抓取  转载链接:https://www.cnblogs.com/bais/p/9118297.html   抓取pc端https请求,ios手机端H5页面https请求   app内嵌H5页面  亲试均能抓到 Fiddler的原理是以代理web服务器的形式工作,使用代理地址127.0.0.1,端口8888: 方便起见,先来pc抓取https的步骤 1.cmd运行certmgr.msc命令打开如下对话框,查找所有关于fiddler的证书  全部…
本博客属原创文章,欢迎转载!转载请务必注明出处:http://guoyunsky.iteye.com/blog/644396       本博客已迁移到本人独立博客: http://www.yun5u.com/        欢迎加入Heritrix群(QQ):109148319,10447185 , Lucene/Solr群(QQ) :  118972724 前面说过Heritrix可以在某个抓取基础上(这里假设为A)继续抓取,因为Heritrix对每一个URL都会有相应的日志处理,同时还有c…