沙漠君在历时半年,修改无数bug,更新一票新功能后,在今天隆重推出最新改进的超级爬虫Hawk 2.0!

啥?你不知道Hawk干吗用的? 这是采集数据的挖掘机,网络猎杀的重狙!半年多以前,沙漠君写了一篇小软文,推出了Hawk。关注的人超级多有木有!

Github上的小星星一下子增加到400!超多妹子在沙漠君的粉丝应援团里疯狂崇拜!然而这不是重点!重点是Hawk真的好多"小"问题...

有朋友哭诉,刚启动小鹰它就冒烟了,还是烤肉味的!好不容易把小虫虫做好,碰了一下显示器,结果小虫虫就扑街了!

每次听到反馈,我都超想好好地把小鹰改造一番。但是!!你们想不到沙漠君工作有多忙!只有在洗手间的时候,我才空在手纸上写代码!

然而!自己挖的坑,哭着也要把它填完!这不,Hawk 2.0横空出世了!

二鹰新增哪些特性呢?

每当我在妹子们前炫耀Hawk的时候,每点一次鼠标,妹子们就一片赞叹,对,就这个效果。

裹脚布杀手:全面支持动态页面

二鹰全面支持动态网页,ajax和瀑布流。这是啥?你在刷微博看杨臭脚的时候,浏览器的地址显示你家幂幂的名字了吗? 没有吧?这就是动态网页,地址是隐藏在网页之中的!

怎么办?你只要把随便一条微博的一个关键词输入到“搜索关键字”那里,点“开始”自动嗅探。二鹰就会帮你抓到这个请求。不论再臭再长的裹脚布都不怕。

大家都很喜爱鹰1的“手气不错”功能,但之前只能处理html,而很难处理内嵌js和json, 现在只要你勾选“超级模式”,不论返回的是何种数据类型。直接点“手气不错”,数据表格就完整出来了!其他什么都不用干!

啊啊啊太强大了,理论上没有二鹰抓不到的网站,除非你的关键字实在太蠢,或者网站做得太高级...

反反爬虫:增加代理

诶诶诶,你又被网站封IP了?谁让你这么不温柔?没有关系,在网页采集器里配置代理,小虫虫就又能接着干活了。

我知道你肯定会问,哪里找代理?那沙漠君就不造了。出门淘宝,想免费的话去翻一翻代理网站,或者搜索“ADSL拨号” 。但是不要用Hawk来做任何非法的用途哦(这段好多敏感词,捂脸)

(爬数据适可而止,小心被查水表哦,严肃脸)

120项改进和优化

沙漠君本来在吃着火锅改着代码,但惊讶于Hawk中居然藏了那么多的bug,吓得我火锅里的毛肚都烫老了! 不过话说回来,只有这样你们才会想起我呀~

于是在发布第一版后的三个月,我断断续续修复了大概120个bug,错误清单上面长长的一片:

  • 在某些win7机器上运行不了啊
  • 开启嗅探再关闭软件,突然上不了网了啦
  • 把爬虫转换拖进去没反应啦,其实就是你没配置好...
    ...

不好意思,根本列不完,列完你也看不完。

不过,优化了这么多,我还是实现了前向兼容,之前大家设计的工程文件都能继续使用。反正不会随随便便就崩溃了。

其实Hawk的子流系统是个超酷的功能,可惜我觉得100个人里有一个会用就不错了。这是个啥呢? 简单说,你可以搭积木,先设计小虫虫,再拼成大虫虫。甚至支持自己和自己拼起来(专业点叫尾递归。邪恶点叫69?啊不要想歪)。

借助子流和内置的Python脚本系统,二鹰能达到图灵完备,实现任意复杂的逻辑,甚至能做刷票!反正口说无凭,你仔细去感受一下就是了。

沙漠君写了完整的文档!

大家最多的反馈,是XXX怎么用啊?泥萌也知道对程序猿来说,写文档就像和产品经理吵架一样痛苦。 我还是咬咬牙,决定写完整的文档!

程序员写文档一般都不是给地球人看的。但是沙漠君忍了。 恩,6个完整的手把手的例子,到每个模块的概要说明,想要的基本都能找到。如果有任何问题,直接在GitHub上留言提问,沙漠君实在受不了一个问题重复回答一百遍啊一百遍!

文档也许现在不全,不过没关系,我会慢慢补充的,总得给我点时间啦。如果还有bug捏?我保证一口老血吐在你的屏幕上! 当然,如果bug够高级,你心爱的沙漠君可能会给你发红包哦。

在哪里获得?~~

Hawk号称是数据界的小确幸,它已经被全国政协,妇联工商联,各大企事业单位和个人广泛使用。

Hawk完全免费开源! 目前所有的文档和发行版,都在GitHub上能找到,直接搜索Hawk即可。 之前的百度云,CSDN下载都可能不再维护。如果你喜欢它,最少是不是该成为沙漠之鹰微信公号的粉丝呀?是不是该在GitHub上Star一下呀?感兴趣的更多的细节,都可以在GiHub上找到。

下载地址:

https://github.com/ferventdesert/Hawk/releases

百度云地址(方便部分朋友无法访问Github):

http://pan.baidu.com/s/1hsPuGRE 密码:n0bu

录制高清视频地址:

http://pan.baidu.com/s/1kVG1gs3 密码:hp8w

如果还找不到? 沙漠之鹰留言或留邮箱,链接和安装包直接发给你!

120项改进:开源超级爬虫Hawk 2.0 重磅发布!的更多相关文章

  1. .NET Core下的开源分布式任务调度系统ScheduleMaster-v2.0低调发布

    从1月份首次公开介绍这个项目到现在也快4个月了,期间做了一些修修补补整体没什么大的改动.2.0算是发布之后第一个大的版本更新,带来了许多新功能新特性,也修复了一些已知的bug,在此感谢在博客.Issu ...

  2. MvcPager 免费开源分页控件3.0版发布!

    MvcPager 3.0版在原2.0版的基础上进行了较大的升级,对MvcPager脚本插件重写并进行了大量优化.修复了部分bug并新增了客户端Javascript API等功能,使用更方便,功能更强大 ...

  3. HTML5开源RPG游戏引擎lufylegendRPG 0.1发布

    一,小小开篇   首先不得不先介绍一下这个引擎: lufylegendRPG是lufylegend的拓展引擎,使用它时,需要引入lufylegend.同时您也需要了解lufylegend语法,这样才能 ...

  4. DS Scheduler 0.7 发布,Linux 调度系统 - 开源中国社区

    DS Scheduler 0.7 发布,Linux 调度系统 - 开源中国社区 DS Scheduler 0.7 发布,Linux 调度系统

  5. PyRedisAdmin v1.0 Beta 发布,Redis 在线管理工具 - 开源中国社区

    PyRedisAdmin v1.0 Beta 发布,Redis 在线管理工具 - 开源中国社区 PyRedisAdmin v1.0 Beta 发布,Redis 在线管理工具

  6. 终于等到你: 图形化开源爬虫Hawk 3发布!

    超级图形化爬虫Hawk已经发布两年半时间了,2015年升级到第二版,收到上千条用户反馈(tucao),100多个红包,总共666块五毛~一直想攒着这笔钱,去北境之王天通苑的龙德商场买最心爱的阿迪王! ...

  7. .Net开源网络爬虫Abot介绍

    .Net中也有很多很多开源的爬虫工具,abot就是其中之一.Abot是一个开源的.net爬虫,速度快,易于使用和扩展.项目的地址是https://code.google.com/p/abot/ 对于爬 ...

  8. Net开源网络爬虫

    转载.Net开源网络爬虫Abot介绍 .Net中也有很多很多开源的爬虫工具,abot就是其中之一.Abot是一个开源的.net爬虫,速度快,易于使用和扩展.项目的地址是https://code.goo ...

  9. .Net开源网络爬虫Abot介绍(转)

    转载地址:http://www.cnblogs.com/JustRun1983/p/abot-crawler.html .Net中也有很多很多开源的爬虫工具,abot就是其中之一.Abot是一个开源的 ...

随机推荐

  1. JS调用Android、Ios原生控件

    在上一篇博客中已经和大家聊了,关于JS与Android.Ios原生控件之间相互通信的详细代码实现,今天我们一起聊一下JS调用Android.Ios通信的相同点和不同点,以便帮助我们在进行混合式开发时, ...

  2. Dapper.Contrib:GetAsync<T> only supports an entity with a [Key] or an [ExplicitKey] property

    异常处理:http://www.cnblogs.com/dunitian/p/4523006.html#dapper 原来Model是这样滴 修改后是这样滴 注意点:Model里面的Table和Key ...

  3. 【WCF】使用“用户名/密码”验证的合理方法

    我不敢说俺的方法是最佳方案,反正这世界上很多东西都是变动的,正像老子所说的——“反(返)者,道之动”.以往看到有些文章中说,为每个客户端安装证书嫌麻烦,就直接采用把用户名和密码塞在SOAP头中发送,然 ...

  4. virtualbox linux虚拟机相关

    linux虚拟机设置为静态IP 在virtualbox中安装好linux虚拟机后,如果采用的是NAT方式的话,linux虚拟机默认采用dhcp方式自动上网,而且用的是NetworkManager服务而 ...

  5. 从啥也不会到可以胜任最基本的JavaWeb工作,推荐给新人的学习路线(二)

    在上一节中,主要阐述了JavaScript方面的学习路线.先列举一下我朋友的经历,他去过培训机构,说是4个月后月薪过万,虽然他现在还未达到这个指标. 培训机构一般的套路是这样:先教JavaSE,什么都 ...

  6. C#反序列化XML异常:在 XML文档(0, 0)中有一个错误“缺少根元素”

    Q: 在反序列化 Xml 字符串为 Xml 对象时,抛出如下异常. 即在 XML文档(0, 0)中有一个错误:缺少根元素. A: 首先看下代码: StringBuilder sb = new Stri ...

  7. nginx服务器安装及配置文件详解

    nginx在工作中已经有好几个环境在使用了,每次都是重新去网上扒博客,各种编译配置,今天自己也整理一份安装文档和nginx.conf配置选项的说明,留作以后参考.像负载均衡配置(包括健康检查).缓存( ...

  8. Android—Service与Activity的交互

    service-Android的四大组件之一.人称"后台服务"指其本身的运行并不依赖于用户可视的UI界面 实际开发中我们经常需要service和activity之间可以相互传递数据 ...

  9. Atitit 软件工程概览attilax总结

    Atitit 软件工程概览attilax总结 1.1. .2 软件工程的发展 进一步地,结合人类发展史和计算机世界演化史来考察软件工程的发展史. 表2 软件工程过程模型 表2将软件工程的主要过程模型做 ...

  10. 分享一个php的启动关闭脚本(原)

    自己简单写的一个php服务的启动脚本和大家分享 思路(实现的原理): 1:function模块+case语句多分支判断 2:通过添加# chkconfig: 2345 43 89注释实现开机自启动(前 ...