终于等到你: 图形化开源爬虫Hawk 3发布!
超级图形化爬虫Hawk已经发布两年半时间了,2015年升级到第二版,收到上千条用户反馈(tucao),100多个红包,总共666块五毛~一直想攒着这笔钱,去北境之王天通苑的龙德商场买最心爱的阿迪王!
啥,你不知道Hawk是什么?它是智能而强大的网络数据采集工具,全图形化无需编程,一些功能强大到作者自己都不会用(这是真的),下面的文章有更多的细节:
Hawk开源地址如下,记得在全世界最大的同性交友网站上给沙漠君点个star~:
Github.com/ferventdesert/Hawk
某天夜里,一位神秘人物突然加我微信,知道我是Hawk的设计者之后,二话不说就发了200块红包!在确认对方不是仙人跳之后。我赶紧给这位客户老爷千恩万谢,明天可以加鸡腿了!
这位VIP客户跟我语音聊了接近一个小时,在无数条对Hawk的赞美之后,话锋一转,说“你这Hawk用户体验好差,界面太丑了,就不能好好优化一下么?”
我说:好啊,你来提需求,我来改?我们一拍即合!这位神秘人物,就叫他升哥吧(可惜不是妹子啊)
从17年10月份开始,我们开始了你织布来我缝衣的模式(好哲♂学),升哥负责测试,用户体验,提需求;我来负责改代码。宝刀未老的沙漠君竟然还能记得四五年前写的C#代码!平时工作太太太太忙了,只能抽周六日坐在马桶上优化代码,差点搞成前列腺炎!平日我们会在地铁和公交上,通过微信讨论各种体验细节,画风是这样的:
{:height="100px" width="400px"}
这样的聊天记录少说上万条,我们脑暴更好的体验,更快的算法,抠每个交互细节,在有限的时间内尽可能打磨和优化Hawk这款产品。后来参与内测的同学越来越多,我也收到了更多的反馈。
时间过得好快,朝鲜改革开放了,杭州买房要摇号了,半年多瞬间过去了。经过无数个“死也不改版”,拥有多个重大功能更新,两百多个体验升级后,Hawk3总算千呼万唤屎出来啦!
那Hawk3带来哪些令客官老爷们吃惊的体验呢?我们重点说明Hawk3强化的功能,已有的介绍可参考之前的文章哦。
1. 更智能的网页采集器
输入网址,点击【手气不错】,Hawk就会自动将所有高价值的数据表提取出来,相比上一代,更是支持智能排序和自定义,动动鼠标,就能在多个结果间来回筛选,点击确定就完成了!
手气不错不仅能列表,还能支持详情页,在链家页面上随便输入一个信息,点手气不错,房产的详细信息就都出来了!
网页采集器不仅支持xpath,更能混合使用selector语法,搜索关键词还能实现页面自动定位跳转高亮,智能地让你想哭! 除了显示html源码,还能以浏览器模式预览!
2. 更易用的数据清洗
Hawk最引以为傲的功能是:用户可组装灵活的数据清洗任务,先洗菜再切菜,最后扔锅里爆炒,所见即所得。
Hawk3大幅度改进了用户体验,模仿播放器设计,你可以对任务的各个模块灵活修改,快进后退!处理数据就像播放岛国大片一样流畅刺激!
可以将多个数据清洗任务互相调用,实现更复杂和高级的功能,新版提供了对子任务的更友好的配置界面,让你像写Python函数一样实现子任务。Hawk调用Python实现自定义处理的功能也得到了增强,支持引入一部分第三方库,处理数据更加灵活。
Hawk同样大大强化了调试功能,能够实时监控web请求数和频次,分析任务中模块的工作和异常,快速确定问题,再也不用担心一脸懵逼找不到bug了!
3. 两百多个微创新!
一款软件,增加新功能不是重点,而是打磨核心功能,用无数个细节编织出的微创新。你会发现:
- 以往需要手工输入的文本框现在都支持下拉菜单自动提示
- 能更容易地暂停和取消正在运行的任务
- 错误弹窗更加人性化,支持拼音快速检索模块
...
4. 超快的导出Excel/数据库
早期版本的Hawk,大数据导出Excel卡得让男人沉默,女人流泪。优化后的Excel导出速度提升了15倍,百万级数据都轻轻松松。
更何况,Hawk还支持了文件级数据库Sqlite,千万数据毫无压力。完全不需要配置,再也不用担心数据太多爆内存了!
5. 想自动化部署的客官有福了!
新的Hawk支持从Windows命令行模式执行,大概是下面的样子:
cmd> HawkScheduler project.xml task_name
在Hawk图形界面上设计工程,命令行输入工程名和任务名,即可直接执行任务,速度更快更轻量,但记得用执行器把数据导出到数据库或者文件里哦!
微软的跨平台战略太不给力,让Hawk支持Linux和Mac的成本实在太高了,所以目前依然只能在Windows上运行。由于更新较多,新的Hawk基本上不能支持以前的工程文件,好在爬虫配置一遍也不是费事,对吧^-^
哎呀太多了写不完,在使用过程中,你能慢慢发现这些细节和惊喜。
考虑到之前用户的使用习惯,大部分改进都是平滑的,但早期工程已经不兼容。界面依然很工科癌。说界面丑的妹子欢迎给我们提意见~
通过阅读文档和视频,研究教学工程,5分钟就能上手使用,半小时就能成为老司机。你肯定迫不及待地想问我在哪里下载?点击GitHub地址,即可到达项目主页,那里有下载地址,文档,视频教程,以及你想要的全部资料!
由于时间极度紧张,可能视频和文档还有不完全之处,请关注“沙漠之鹰”微信公众号,Hawk的消息会在第一时间推送给你~最后,如果使用中有任何问题和建议,欢迎加入QQ群546750531,或者在GitHub上发言答疑,如果你是程序员,那麻烦给这个开源项目点个star呗~~
祝使用Hawk愉快!
终于等到你: 图形化开源爬虫Hawk 3发布!的更多相关文章
- 新数据革命: 开源C#图形化爬虫引擎Hawk5发布
https://ferventdesert.github.io/Hawk/ Hawk是一款由沙漠之鹰历时五年个人业余时间开发的,开源图形化爬虫和数据清洗工具,GitHub Star超过2k+,前几代版 ...
- 终于等到你:CYQ.Data V5系列 (ORM数据层)最新版本开源了
前言: 不要问我框架为什么从收费授权转到免费开源,人生没有那么多为什么,这些年我开源的东西并不少,虽然这个是最核心的,看淡了就也没什么了. 群里的网友:太平说: 记得一年前你开源另一个项目的时候我就说 ...
- 终于等到你:CYQ.Data V5系列 (ORM数据层,支持.NET Core)最新版本开源了
前言: 不要问我框架为什么从收费授权转到免费开源,人生没有那么多为什么,这些年我开源的东西并不少,虽然这个是最核心的,看淡了就也没什么了. 群里的网友:太平说: 记得一年前你开源另一个项目的时候我就说 ...
- 120项改进:开源超级爬虫Hawk 2.0 重磅发布!
沙漠君在历时半年,修改无数bug,更新一票新功能后,在今天隆重推出最新改进的超级爬虫Hawk 2.0! 啥?你不知道Hawk干吗用的? 这是采集数据的挖掘机,网络猎杀的重狙!半年多以前,沙漠君写了一篇 ...
- 分享一个基于小米 soar 的开源 sql 分析与优化的 WEB 图形化工具
soar-web 基于小米 soar 的开源 sql 分析与优化的 WEB 图形化工具,支持 soar 配置的添加.修改.复制,多配置切换,配置的导出.导入与导入功能. 环境需求 python3.xF ...
- python爬虫爬取天气数据并图形化显示
前言 使用python进行网页数据的爬取现在已经很常见了,而对天气数据的爬取更是入门级的新手操作,很多人学习爬虫都从天气开始,本文便是介绍了从中国天气网爬取天气数据,能够实现输入想要查询的城市,返回该 ...
- 开源的.Net 工作流引擎Elsa初试——创建工作流服务器和图形化工作流配置管理应用
微软的Workflow Foundation基于.Net Framework,并且没有向.Net Core迁移的计划.我们的很多项目使用了工作流引擎,这些项目向.Net Core以及更高版本迁移时遇到 ...
- 几款开源的图形化Redis客户端管理软件
转载于:http://www.itxuexiwang.com/a/shujukujishu/redis/2016/0216/98.html?1455870209 Redis是一个超精简的基于内存的键值 ...
- 几款开源的图形化Redis客户端管理软件推荐
Redis是一个超精简的基于内存的键值对数据库(key-value),一般对并发有一定要求的应用都用其储存session,乃至整个数据库.不过它公自带一个最小化的命令行式的数据库管理工具,有时侯使用起 ...
随机推荐
- 【Linux学习笔记】关于ubuntu开机菜单栏和任务栏不见了的有效解决方法
(一) 问题描述 ubuntu开机只有桌面,没有菜单栏和任务栏,如下图: (二) 问题解决 刚学习ubuntu,总有些像我这样不折腾就不舒服的人,今天改了一下主题,图标什么的,重启开机后就发现!咦!我 ...
- wing带你玩转自定义view系列(3)模仿微信下拉眼睛
发现了爱神的自定义view系列,我只想说一个字:凸(艹皿艹 ) !!相见恨晚啊,早看到就不会走这么多弯路了 另外相比之下我这完全是小儿科..所以不说了,这篇是本系列完结篇....我要从零开始跟随爱哥脚 ...
- 《java入门第一季》之面向对象(包概述)
由于eclipse等ide的强大功能,使得建包,导包用一些快捷键就能完成.这里对包的概念做稍微的叙述,了解即可: 分包后使得项目更加清晰,提高代码维护性. 包: A:其实就是文件夹 ...
- gc实例与gc报告的阅读
gc报告的阅读 首先我们看一条gc报告 D:\杂项\java>java -verbose:gc -Xms20m -Xmx20m -Xmn10m -XX:+PrintGCDetails -XX:+ ...
- 标准会话对象——StandardSession
Tomcat使用了一个StandardSession对象用来表示标准的会话结构,用来封装需要存储的状态信息.标准会话对象StandardSession实现了Session.Serializable.H ...
- Java-HttpSession
//session给用户一种标志,让用户可以在不同页面以及网站中都有一个特殊的标记 public interface HttpSession { /** * Returns the time when ...
- infiniDB在linux下完成倒库
在网看到自己的文章被四处烂用,经常搜到自己的文章.关键是,你能把我头像删除了不,有本事,你 把网址也给出http://blog.csdn.net/longshenlmj/article/details ...
- Erlang Rebar 使用指南之一:入门篇
Erlang Rebar 使用指南之一:入门篇 全文目录: https://github.com/rebar/rebar/wiki 本章原文: https://github.com/rebar/reb ...
- 高通Android display架构分析
目录(?)[-] Kernel Space Display架构介绍 函数和数据结构介绍 函数和数据结构介绍 函数和数据结构介绍 数据流分析 初始化过程分析 User Space display接口 K ...
- SharePoint JS感悟-js脚本
最近有些迷恋js脚本,因为自己对Asp.net不够熟悉,又是Moss的一年级新生,不是对代码开发不感兴趣,面向对象自己也了解一些,代码也能大致读懂,个人觉得还是经验积累,作为代码开发人员,还是需要3- ...