https://ferventdesert.github.io/Hawk/

Hawk是一款由沙漠之鹰历时五年个人业余时间开发的,开源图形化爬虫和数据清洗工具,GitHub Star超过2k+,前几代版本介绍如下:

Hawk3: 终于等到你: 图形化开源爬虫Hawk 3发布!

Hawk2: 120项优化: 超级爬虫Hawk 2.0重磅发布!

Hawk1: 如何从互联网采集海量数据?租房,二手房,薪酬...

一键抓取二手房的教程如下: https://www.jianshu.com/p/859c314f58c5

Hawk从2015年开源,但Hawk5则带来了其历史上最大的更新,解决诸多bug,提供开放的任务市场,手机app嗅探和更强大的调试系统。 因此我们直接跳过Hawk4,发布Hawk5。

那么Hawk5带来哪些让人兴奋的更新呢? 大招在最后!

Hawk5对界面做了进一步的完善和微调,使用更人性化:

断点续跑和自动保存

Hawk早期版本不稳定,用户正在编辑任务或处理数据时,Hawk扑街了!

Hawk5能自动保存任务,数据表,甚至当前执行的位置!一旦关闭或崩溃,不要怕!数据一条没丢,重启后,还能从上次中断继续运行!就像断点续传一样,颤抖吧筒子们!

自动回补数据

这是另一革命性功能,由于访问网站经常会超时或不可访问,想一次性抓取且不重不漏是非常困难的。

Hawk5支持批量补数据。当发生异常时,Hawk会将异常和上下文写入数据表,之后即可智能重新执行,将数据不重不漏地回补回来,如下图所示:

超级文档,自动更新和多国语言

Hawk5中,帮助文档获得了极大的增强,除了丰富和细致的在线文档之外:

https://ferventdesert.github.io/Hawk/

还在各个模块下方提供图文并茂的说明,当你不知道该按钮的作用时,鼠标放在该按钮上保持3秒就有贴心提示出现!

更贴心的是,设计完任务后,一键即可生成手把手帮助文档。新手按部就班即可重重现该功能!

Hawk5进一步地提供了多国语言,能方便地在中文,English或其他任何语言切换,只要在执行目录增加对应的语言文件即可!

同时,Hawk的自动更新机制,能够让迭代更加敏捷,有新版本的Hawk即可一键更新,妈妈再也不用担心Hawk出现bug了!

全局参数

早期的Hawk,多任务间协同比较复杂,子任务也不能彻底解决该问题。

Hawk5中提供了全局参数系统,可以在任何模块中,使用大括号引用你已经配置的参数,并能在多个参数组间切换。

这有什么用呢?举个栗子,当二手房抓取时,每个城市们页面格式和地址都不相同, 需要手工切换多个参数。使用全局参数后,切换配置组即可一键在不同城市间切换!

调试系统和UI交互改进

早期Hawk在配置错误时,一条数据都出不来,卡住的不仅是Hawk,还有用户的心。

Hawk5提供了更加方便的调试系统,每个模块是否正常工作,会以绿色方格提醒,一目了然。当任务的某个模块出现异常时会及时提示。

超级拷贝,可以通过shift键,选择多个模块,在多个任务间拷贝。你甚至还能将Hawk自动嗅探出的网页XPath结构一键拷贝为python代码,极大地简化爬虫工程师的工作!

是否已经被网站封锁?总共进行了多少次请求?全局统计系统能够方便的显示当前总的web请求数,异常数,超时数,当错误数达到阈值时,更能自动暂停所有的任务!

除此之外,新版的Hawk更是改进了UI设计,例如XPath转换器,能够通过关键字快速定位,几次点选即可获取真实XPath。

社会化协作:任务市场

以前所有的Hawk用户只能各自为政,无法共享和沟通。

在新的Hawk中,你可以浏览任务市场,直接加载远程任务和浏览数据,并方便地组合其他人的任务。像BT站一样,作者发布数据清洗工程后,所有的Hawk用户就会立即受益!

以前想抓取全国二手房很复杂,且不能应对网站改版。在Hawk市场只要轻轻点击加载任务即可,所见即所得,一键将数据导出到Excel。

这是Hawk本次更新的最重要的功能,它极大地改善了Hawk社会化协作,基于GitHub。由于账号系统的限制,目前还不能在软件中直接上传任务(未来会提供),如果你希望向主仓库贡献任务,可提交git的pull request。

在AI时代,通过大量用户使用Hawk的行为和任务市场的积累,我们能够通过强化学习等技术,自动让AI学出自动的数据清洗和转换服务,让Hawk变得更加智能。

无限想象:自动抢票,翻译,图片识别...

如果你以为Hawk只是个爬虫,那就错了,Hawk是个通用的流式计算客户端。未来Hawk市场,不仅会有共享的任务,更会引入第三方插件机制,极大地扩展Hawk流式计算的版图。

目前正在开发中的浏览器驱动插件,能够让Hawk自动控制浏览器,模拟点击,翻页等一系列操作,你要做的只是做一遍后导入到Hawk。通过配置数据清洗流,能够实现自动抢票,键盘输入等一系列功能。

Hawk5的手机远程嗅探功能,能方便的抓取手机app的数据。

未来的插件能够更方便地调用百度识图,翻译转换以及各类服务存储API,让更多用户能够通过Hawk拖拽就能实现丰富的数据处理,并导出成任何格式。

我们对Hawk的理念,是开源,去中心化和社会化协作。它没有公司去运营,没有中心服务器,只依赖了免费的GitHub仓库,使用文档和教程都是机器自动生成的。但它也在各种艰难中一路走来,但我们对Hawk的愿景是让数据流变得更加智能,让数据工作者变得更加地敏捷方便。

感谢阅读,如果Hawk给你提供了帮助,欢迎转发本文给更多的朋友,并欢迎给本项目的GitHub点个star!

新数据革命: 开源C#图形化爬虫引擎Hawk5发布的更多相关文章

  1. 几款开源的图形化Redis客户端管理软件

    转载于:http://www.itxuexiwang.com/a/shujukujishu/redis/2016/0216/98.html?1455870209 Redis是一个超精简的基于内存的键值 ...

  2. 几款开源的图形化Redis客户端管理软件推荐

    Redis是一个超精简的基于内存的键值对数据库(key-value),一般对并发有一定要求的应用都用其储存session,乃至整个数据库.不过它公自带一个最小化的命令行式的数据库管理工具,有时侯使用起 ...

  3. 终于等到你: 图形化开源爬虫Hawk 3发布!

    超级图形化爬虫Hawk已经发布两年半时间了,2015年升级到第二版,收到上千条用户反馈(tucao),100多个红包,总共666块五毛~一直想攒着这笔钱,去北境之王天通苑的龙德商场买最心爱的阿迪王! ...

  4. 一键安装Docker图形化管理界面-Shipyard

    Shipyard是一款开源的图形化的Docker管理工具,记得以前安装很麻烦的,现在官方有了自动安装脚本,使用非常方便.复制.粘贴.使用,就这么简单.先不研究他是如何实现的,安装使用起来再说. $ c ...

  5. KONG -- 图形化管理(Kong Dashboard)

    前面安装的 KONG 的版本是社区版的 1.0.2,官方的 KONG Manager 好像只有企业版才提供.在 github 上找了一个开源的图形化管理应用 -- Kong Dashboard (ht ...

  6. 开源的.Net 工作流引擎Elsa初试——创建工作流服务器和图形化工作流配置管理应用

    微软的Workflow Foundation基于.Net Framework,并且没有向.Net Core迁移的计划.我们的很多项目使用了工作流引擎,这些项目向.Net Core以及更高版本迁移时遇到 ...

  7. 有评论就是我最大的动力~MySQL基础篇完结(存储引擎和图形化管理工具)

    hi 今天登上来,发现竟然有了3个评论~~加油吧! 这周的计划其实远远没有达到,然后下周还有一大堆事情...那么...周末好好玩吧~ 今天试图完结MySQL的基础篇知识,小白变为大白? 1.MySQL ...

  8. 分享一个基于小米 soar 的开源 sql 分析与优化的 WEB 图形化工具

    soar-web 基于小米 soar 的开源 sql 分析与优化的 WEB 图形化工具,支持 soar 配置的添加.修改.复制,多配置切换,配置的导出.导入与导入功能. 环境需求 python3.xF ...

  9. python爬虫爬取天气数据并图形化显示

    前言 使用python进行网页数据的爬取现在已经很常见了,而对天气数据的爬取更是入门级的新手操作,很多人学习爬虫都从天气开始,本文便是介绍了从中国天气网爬取天气数据,能够实现输入想要查询的城市,返回该 ...

随机推荐

  1. MSSQL TABLE COPY TABLE

    SQL Server中,如果目标表存在: insert into 目标表 select * from 原表; SQL Server中,,如果目标表不存在: select * into 目标表 from ...

  2. ES 01 - Elasticsearch入门 + 基础概念学习

    目录 1 Elasticsearch概述 1.1 Elasticsearch是什么 1.2 Elasticsearch的优点 1.3 Elasticsearch的相关产品 1.4 Elasticsea ...

  3. TypeScript 基础知识点整理

    一.TypeScript的特点 1.支持ES6规范 2.强大的IDE支持(集成开发环境) 允许为变量指定类型,减少你在开发阶段犯错误的几率. 语法提示,在IDE编写代码时,它会根据你所处的上下文把你能 ...

  4. Linux基础知识第三讲,拷贝文件跟移动文件命令

    目录 Linux基础知识第三讲,拷贝文件跟移动文件命令 一丶常用命令 1.tree命令常用选项 2.cp复制文件命令 3.mv 命令的使用 Linux基础知识第三讲,拷贝文件跟移动文件命令 一丶常用命 ...

  5. springboot情操陶冶-web配置(四)

    承接前文springboot情操陶冶-web配置(三),本文将在DispatcherServlet应用的基础上谈下websocket的使用 websocket websocket的简单了解可见维基百科 ...

  6. 流式大数据计算实践(7)----Hive安装

    一.前言 1.这一文学习使用Hive 二.Hive介绍与安装 Hive介绍:Hive是基于Hadoop的一个数据仓库工具,可以通过HQL语句(类似SQL)来操作HDFS上面的数据,其原理就是将用户写的 ...

  7. Spring中用了哪些设计模式

    1 简单工厂模式 又叫做静态工厂方法(StaticFactory Method)模式,但不属于23种GOF设计模式之一. 简单工厂模式的实质是由一个工厂类根据传入的参数,动态决定应该创建哪一个产品类. ...

  8. Python并发编程之谈谈线程中的“锁机制”(三)

    大家好,并发编程 进入第三篇. 今天我们来讲讲,线程里的锁机制. 本文目录 何为Lock( 锁 )?如何使用Lock( 锁 )?为何要使用锁?可重入锁(RLock)防止死锁的加锁机制饱受争议的GIL( ...

  9. lua的String

    基础字符串函数 字符串库中有一些函数非常简单,如:    1). string.len(s) 返回字符串s的长度:    2). string.rep(s,n) 返回字符串s重复n次的结果:    3 ...

  10. [Linux] awk基础编程

    1.awk每次读一行数据,如果设置了-F选项,是在这一行使用分隔符分,$0是全部 2.awk由模式和动作组成 3.条件判断模式{动作} a.txt aaa bbb aaa ccc ddd cat a. ...