Hawk 3. 网页采集器

1.基本入门

1. 原理（建议阅读）

网页采集器的功能是获取网页中的数据（废话）。通常来说，目标可能是列表（如购物车列表），或是一个页面中的固定字段（如JD某商品的价格和介绍，在页面中只有一个）。因此需要设置其读取模式。传统的采集器需要编写正则表达式，但方法过分复杂。

如果认识到html是一棵树，只要找到了承载数据的节点即可。XPath就是一种在树中描述路径的语法。指定XPath，就能搜索到树中的节点。

有关XPath的详细信息，建议参考网上相关章节。

手工编写XPath也很复杂，因此软件可以通过关键字，自动检索XPath，提供关键字，软件就会从树中递归搜索包含该数据的叶子节点。因此关键字最好是在页面中独一无二的。

如上图所示，只要提供“北京”和“42”这两个关键字，就能找到parent节点，进而获取div[0]和div1这两个列表元素。通过div[0]和div1两个节点的比较，我们就能自动发现相同的子节点（name,mount）和不同的节点（北京:上海,37:42）。相同的节点会保存为属性名，不同的节点为属性值。但是，不能提供北京和37，此时，公共节点是div[0]，这不是列表。

软件在不提供关键字的情况下，也能通过html文档的特征，去计算最可能是列表父节点（如图中的parent）的节点，但当网页特别复杂时，猜测可能会出错，所以需要至少提供两个关键字（属性）。

本算法原理是原创的，可查看源码或留言交流。

2. 两种工作模式

Hawk把网页分成两种类型:

列表(List)->多文档模式
如二手房房源信息
某个购物清单
普通文档（One）->单文档模式
如京东的某个商品页面
某条新闻页面

对一些复杂的页面，可能包含多个列表和文档。Hawk建议你一次只抓取其中的一类信息，同时抓取多类信息会相当复杂。

你可以在网页采集器的【工作模式】下拉菜单中选择目标模式，默认List.

注意:

当你没有为网页采集器添加任何属性时，默认行为是返回只有一个字段Content的单文档，内容为整个页面。

单文档和多文档模式，会让网页采集器在数据清洗模块中产生不同的行为。建议阅读这部分内容

基本列表

我们以爬取链家二手房为例，介绍网页采集器的使用。首先双击图标，加载采集器：

在最上方的地址栏中，输入要采集的目标网址，本次是

　http://bj.lianjia.com/ershoufang/

并点击刷新网页。此时，下方展示的是获取的html文本。原始网站页面如下：

[QQ截图20160501121150.jpg-88kB][3]

可以点击复制到粘贴板，方便使用其他工具对获取的页面进行搜索。

全自动模式

直接点击手气不错,第一次弹出来的列表可能不是我们想要的，没关系。关闭当前窗口，会弹出如下的对话框：

[image_1aur4cis61djc147c2b1e101o6um.png-44.5kB][4]

选择否，即可继续检查下一个可能的列表目标，直到检索到你要的内容为止，属性的名称是自动推断的，如果不满意，可以修改列表第一列的属性名，在对应的列中敲键盘回车提交修改。之后系统就会自动将这些属性添加到属性列表中。最后点击是，确认结果。

你会发现，生成的数据中不包含超链接，因为超链接是不可见的标签(attribute)，Hawk默认是不检索之的，需要勾选提取标签 即可。

手动模式

由于软件不知道到底要获取哪些内容，因此需要手工给定几个关键字，让Hawk搜索关键字，并获取位置。

以上述页面为例，通过检索820万和51789（单价,每次采集时都会有所不同），我们就能通过DOM树的路径，找出整个房源列表的根节点。

下面是实际步骤

[QQ截图20160501121344.jpg-21.6kB][6]

由于要抓取列表，所以读取模式选择List。填入搜索字符700，发现能够成功获取XPath, 编写属性为“总价”
，点击添加字段，即可添加一个属性。类似地，再填入30535，设置属性名称为“单价”，即可添加另外一个属性。

如果发现有错误，可点击编辑集合，
对属性进行删除，修改和排序。

你可以类似的将所有要抓取的特征字段添加进去，或是直接点击手气不错，系统会根据目前的属性，推测其他属性:

[QQ截图20160501121405.jpg-138.5kB][7]

结果检查

工作过程中，可点击提取测试 ，随时查看采集器目前的能够抓取的数据内容。这样，一个链家二手房的网页采集器即可完成。可属性管理器的上方，可以修改采集器的模块名称，这样就方便数据清洗 模块调用该采集器。

3. 单文档模式

该模式只能从一个网页中抽取一个文档出来。
你可以设置多个属性，这样采集器就会从网页中依次将其抽取出来。

以抓取新闻内容为例：
http://www.ce.cn/xwzx/gnsz/gdxw/201609/21/t20160921_16119449.shtml
页面如下：
[image_1at5pff7g7m71jtq1b2o1hlq1dt9.png-76.5kB][8]

你可以在搜索关键字中，搜索【2016年09月21日】，属性填写为时间，搜索【人民日报】，属性为【来源】。

提取正文需要注意，你可以随意填写正文中的一部分关键字，例如【量子隐形传态是一种传递量子】，这样Hawk就检索出了XPath:
前面省略/div[1]/p[1]

如果你直接使用这个路径，则抓取的内容只有这一段。为了抓取正文，我们可以将/p[1]部分去掉，只获取其父节点。这样就能抓取全文数据（是不是很赞）？

如果你想获取原始正文的html，则在属性列表的对话框里，可以勾选某个属性的【HTML标签】。

此时，点击提取测试，看看是不是获取了所需的数据？