title: 爬虫入门五 gooseeker

date: 2020-03-16 16:00:00

categories: python

tags: crawler

gooseeker是一个简单的爬虫软件。无需编程知识就可以使用。

1 简介

集搜客GooSeeker大数据软件开发始于2007年,2007年正是语义网络走向商用的时期,集搜客致力于提供一套便捷易用的软件,将网页内容进行语义标注和结构化转换。

GooSeeker是一个采用云计算架构的网页数据抽取工具包,能根据用户的指导,从网页上抓取需要的文本,并输出按一定结构输出提取结果文件(XML文件)

2 实例

因为是个工具软件,就直接采用实例学习。

2.1集搜客爬虫浏览器入门和基本术语

以京东商品的名称和价格为例。

复制目标页面到GS。

https://item.jd.com/100004770263.html,并打开

按下定义规则按钮。

此时GS分为原网页,dom窗口(展示网页结构),工作台。

在工作台,定义采集规则。

起一个主题名,然后查重。

然后双击原网页想要采集部分,会提示输入标签名。标签名自定义。打钩确认。

第一次标签会提示输入整理箱名:摘取的内容(标签)会放到整理箱。 标签是输出为excel表格时的项目。

工作台点击测试,查看能否抓取。

保存规则:在GS右上角有"存规则按钮"

然后点击"爬数据"按钮,启动GS的打数机爬取。

在爬取界面点击 文件->存储路径 可以查看路径。 去相关目录查找可见保存的XML文件。 注注意在user的DataScraperWorks目录下

然后回到GS主页,回到普通浏览模式。

再返回GS官网,登录会员中心,进入规则管理项,选择刚刚定义的规则,点击导入数据,点击附件选择刚刚的XML文件,点击导入。

然后点击导出数据,保存到 downloads目录。得到excel文件。

这里视频教程和软件版本不一致,改为到会员中心的数据管理导入导出

2.2 京东商品列表采集(样例复制)

列表页面就是由多个相同结构的数据组成的页面。

比如在京东搜索apple页面。https://search.jd.com/Search?keyword=apple&enc=utf-8&wq=apple&pvid=7f57e2c13a294435957c391adda80f01

复制到GS。注意要拖动滚动条使页面加载完。

然后定义规则:

新建主题,然后点击创建规则->新建整理箱。

然后选择页面中一个商品的名称,价格创建两个标签。

然后测试。

然后选中刚刚创建的整理箱->抓取内容->整理箱名。

点击原网页创建了标签的名称,在下方dom窗口出现对应节点,右键,样例复制,选择第一个(添加第一个样例)

然后原网页选择下一个商品,点击名称,下方dom右键选择第二个样例。 (这里样例复制只需要选择连续的两个数据结构的相同节点即可,比如京东搜索页面的两个手机的图片,不一定是刚刚创建的标签)

工作台点击定位,选择绝对定位,存储,测试。

然后右上角保存规则。点击。爬数据

爬完后可以点击查看日志有无错误。

剩下的转excel的操作和 2.1一致

2.3 京东搜索列表翻页采集

京东搜索键盘,复制到GS。

注意要先拖到,使得网页加载完毕。

新建主题,整理箱。然后点击页面创建标签: 名称,价格,店家。

然后创建样例复制。见 2.2

可以测试一下。

然后翻页:

拖动到页面下方的翻页区,点击原网页,可见黄色框选。在下方dom区可见选中了div节点,右键,翻页映射,作为翻页区,新建线索。注意修改目标任务名为当前任务。

然后找到翻页记号 ,这里是 "下一页"。点击,在dom区域可见选中了EM节点,但是这里是文本"下一页",所以展开该EM节点,选中其中的text节点,右键,翻页映射,作为翻页记号。

存规则,爬数据。

这里每个页面一个XML文件。

为了防止爬虫到了最后一页陷入停止,在爬数据的打数机页面,高级,重点标志,重复内容。这样采集到连续三个相同的页面就会停止。中途也可以选择强制退出。

到生成的目录下,选择多个XML文件,压缩为ZIP,然后在GS的会员中心导入,导出,得到Excel文件。

2.4 京东搜索列表层级采集

在2.3翻页的基础上,进入商品的详情页采集信息。

https://www.bilibili.com/video/av22910870

爬虫入门五 gooseeker的更多相关文章

  1. Python爬虫入门五之URLError异常处理

    大家好,本节在这里主要说的是URLError还有HTTPError,以及对它们的一些处理. 1.URLError 首先解释下URLError可能产生的原因: 网络无连接,即本机无法上网 连接不到特定的 ...

  2. 转 Python爬虫入门五之URLError异常处理

    静觅 » Python爬虫入门五之URLError异常处理 1.URLError 首先解释下URLError可能产生的原因: 网络无连接,即本机无法上网 连接不到特定的服务器 服务器不存在 在代码中, ...

  3. 5.Python爬虫入门五之URLError异常处理

    大家好,本节在这里主要说的是URLError还有HTTPError,以及对它们的一些处理. 1.URLError 首先解释下URLError可能产生的原因: 网络无连接,即本机无法上网 连接不到特定的 ...

  4. Python爬虫教程——入门五之URLError异常处理

    大家好,本节在这里主要说的是URLError还有HTTPError,以及对它们的一些处理. 1.URLError 首先解释下URLError可能产生的原因: 网络无连接,即本机无法上网 连接不到特定的 ...

  5. Python2.x爬虫入门之URLError异常处理

    大家好,本节在这里主要说的是URLError还有HTTPError,以及对它们的一些处理. 1.URLError 首先解释下URLError可能产生的原因: (1)网络无连接,即本机无法上网 (2)连 ...

  6. 爬虫入门之爬取策略 XPath与bs4实现(五)

    爬虫入门之爬取策略 XPath与bs4实现(五) 在爬虫系统中,待抓取URL队列是很重要的一部分.待抓取URL队列中的URL以什么样的顺序排列也是一个很重要的问题,因为这涉及到先抓取那个页面,后抓取哪 ...

  7. 爬虫入门之urllib库详解(二)

    爬虫入门之urllib库详解(二) 1 urllib模块 urllib模块是一个运用于URL的包 urllib.request用于访问和读取URLS urllib.error包括了所有urllib.r ...

  8. Python爬虫入门(二)之Requests库

    Python爬虫入门(二)之Requests库 我是照着小白教程做的,所以该篇是更小白教程hhhhhhhh 一.Requests库的简介 Requests 唯一的一个非转基因的 Python HTTP ...

  9. openresty 前端开发入门五之Mysql篇

    openresty 前端开发入门五之Mysql篇 这章主要演示怎么通过lua连接mysql,并根据用户输入的name从mysql获取数据,并返回给用户 操作mysql主要用到了lua-resty-my ...

随机推荐

  1. 这难道不是.NET5 的bug? 在线求锤?

    hello,最近在对一个使用.NET5项目的认证授权系统进行重构,对.NET 5的授权中间件的源码有些看法. 也希望同学们能帮我理解. 一个朴素的需求 这是一个api项目,默认所有的api都需要授权, ...

  2. AQS之ReentrantReadWriteLock精讲分析上篇

    1.用法 1.1 定义一个安全的list集合 public class LockDemo { ArrayList<Integer> arrayList = new ArrayList< ...

  3. [Usaco2007 Dec]宝石手镯

    题目描述 贝茜在珠宝店闲逛时,买到了一个中意的手镯.很自然地,她想从她收集的 N(1 <= N <= 3,402)块宝石中选出最好的那些镶在手镯上.对于第i块宝石,它的重量为W_i(1 & ...

  4. 1.5V转3V电源芯片,1.5V转3V稳压芯片

    1.5V干电池的供电电压一般是0.9V-1.6V左右,因为供电电压不稳,所以需要1.5V转3V的稳压电源芯片,当0.9V-1.6V输入电压时,输出电压能稳定3V输出,给模块供电,MCU供电,LED灯供 ...

  5. Docker 拉取镜像速度太慢

    Docker Hub 是我们分发和获取 Docker 镜像的中心,但由于服务器位于海外,经常会出现拉取/上传镜像时速度太慢或无法访问的情况.再加上运营方不断对 Docker Hub 的免费使用进行限制 ...

  6. Vue 3自定义指令开发

    本文由葡萄城技术团队原创并首发 转载请注明出处:葡萄城官网,葡萄城为开发者提供专业的开发工具.解决方案和服务,赋能开发者. 什么是指令(directive) 在Angular和Vue中都有Direct ...

  7. C指针的这些使用技巧,掌握后立刻提升一个Level

    这是道哥的第016篇原创 关注+星标公众号,不错过最新文章 目录 一.前言 二.八个示例 1. 开胃菜:修改主调函数中的数据 2. 在被调用函数中,分配系统资源 2.1 错误用法 2.2 正确用法 3 ...

  8. .net core 和 WPF 开发升讯威在线客服与营销系统:使用 TCP协议 实现稳定的客服端

    本系列文章详细介绍使用 .net core 和 WPF 开发 升讯威在线客服与营销系统 的过程.本产品已经成熟稳定并投入商用. 在线演示环境:https://kf.shengxunwei.com 注意 ...

  9. C#Process调用外部程序

    前言 使用C#调用外部程序,一种是通过Process类,一种是通过命令行,本文主要说一下使用C#中的Process类调用外部程序的方式. 过程: 1. 创建Process对象 2. 配置启动选项(输入 ...

  10. Python 中 sorted 如何自定义比较逻辑

    在 Python 中对一个可迭代对象进行排序是很常见的一个操作,一般会用到 sorted() 函数 num_list = [4, 2, 8, -9, 1, -3] sorted_num_list = ...