爬虫入门五 gooseeker
title: 爬虫入门五 gooseeker
date: 2020-03-16 16:00:00
categories: python
tags: crawler
gooseeker是一个简单的爬虫软件。无需编程知识就可以使用。
1 简介
集搜客GooSeeker大数据软件开发始于2007年,2007年正是语义网络走向商用的时期,集搜客致力于提供一套便捷易用的软件,将网页内容进行语义标注和结构化转换。
GooSeeker是一个采用云计算架构的网页数据抽取工具包,能根据用户的指导,从网页上抓取需要的文本,并输出按一定结构输出提取结果文件(XML文件)
2 实例
因为是个工具软件,就直接采用实例学习。
2.1集搜客爬虫浏览器入门和基本术语
以京东商品的名称和价格为例。
复制目标页面到GS。
https://item.jd.com/100004770263.html,并打开
按下定义规则按钮。
此时GS分为原网页,dom窗口(展示网页结构),工作台。
在工作台,定义采集规则。
起一个主题名,然后查重。
然后双击原网页想要采集部分,会提示输入标签名。标签名自定义。打钩确认。
第一次标签会提示输入整理箱名:摘取的内容(标签)会放到整理箱。 标签是输出为excel表格时的项目。
工作台点击测试,查看能否抓取。
保存规则:在GS右上角有"存规则按钮"
然后点击"爬数据"按钮,启动GS的打数机爬取。
在爬取界面点击 文件->存储路径 可以查看路径。 去相关目录查找可见保存的XML文件。 注注意在user的DataScraperWorks目录下
然后回到GS主页,回到普通浏览模式。
再返回GS官网,登录会员中心,进入规则管理项,选择刚刚定义的规则,点击导入数据,点击附件选择刚刚的XML文件,点击导入。
然后点击导出数据,保存到 downloads目录。得到excel文件。
这里视频教程和软件版本不一致,改为到会员中心的数据管理导入导出
2.2 京东商品列表采集(样例复制)
列表页面就是由多个相同结构的数据组成的页面。
比如在京东搜索apple页面。https://search.jd.com/Search?keyword=apple&enc=utf-8&wq=apple&pvid=7f57e2c13a294435957c391adda80f01
复制到GS。注意要拖动滚动条使页面加载完。
然后定义规则:
新建主题,然后点击创建规则->新建整理箱。
然后选择页面中一个商品的名称,价格创建两个标签。
然后测试。
然后选中刚刚创建的整理箱->抓取内容->整理箱名。
点击原网页创建了标签的名称,在下方dom窗口出现对应节点,右键,样例复制,选择第一个(添加第一个样例)
然后原网页选择下一个商品,点击名称,下方dom右键选择第二个样例。 (这里样例复制只需要选择连续的两个数据结构的相同节点即可,比如京东搜索页面的两个手机的图片,不一定是刚刚创建的标签)
工作台点击定位,选择绝对定位,存储,测试。
然后右上角保存规则。点击。爬数据
爬完后可以点击查看日志有无错误。
剩下的转excel的操作和 2.1一致
2.3 京东搜索列表翻页采集
京东搜索键盘,复制到GS。
注意要先拖到,使得网页加载完毕。
新建主题,整理箱。然后点击页面创建标签: 名称,价格,店家。
然后创建样例复制。见 2.2
可以测试一下。
然后翻页:
拖动到页面下方的翻页区,点击原网页,可见黄色框选。在下方dom区可见选中了div节点,右键,翻页映射,作为翻页区,新建线索。注意修改目标任务名为当前任务。
然后找到翻页记号 ,这里是 "下一页"。点击,在dom区域可见选中了EM节点,但是这里是文本"下一页",所以展开该EM节点,选中其中的text节点,右键,翻页映射,作为翻页记号。
存规则,爬数据。
这里每个页面一个XML文件。
为了防止爬虫到了最后一页陷入停止,在爬数据的打数机页面,高级,重点标志,重复内容。这样采集到连续三个相同的页面就会停止。中途也可以选择强制退出。
到生成的目录下,选择多个XML文件,压缩为ZIP,然后在GS的会员中心导入,导出,得到Excel文件。
2.4 京东搜索列表层级采集
在2.3翻页的基础上,进入商品的详情页采集信息。
https://www.bilibili.com/video/av22910870
爬虫入门五 gooseeker的更多相关文章
- Python爬虫入门五之URLError异常处理
大家好,本节在这里主要说的是URLError还有HTTPError,以及对它们的一些处理. 1.URLError 首先解释下URLError可能产生的原因: 网络无连接,即本机无法上网 连接不到特定的 ...
- 转 Python爬虫入门五之URLError异常处理
静觅 » Python爬虫入门五之URLError异常处理 1.URLError 首先解释下URLError可能产生的原因: 网络无连接,即本机无法上网 连接不到特定的服务器 服务器不存在 在代码中, ...
- 5.Python爬虫入门五之URLError异常处理
大家好,本节在这里主要说的是URLError还有HTTPError,以及对它们的一些处理. 1.URLError 首先解释下URLError可能产生的原因: 网络无连接,即本机无法上网 连接不到特定的 ...
- Python爬虫教程——入门五之URLError异常处理
大家好,本节在这里主要说的是URLError还有HTTPError,以及对它们的一些处理. 1.URLError 首先解释下URLError可能产生的原因: 网络无连接,即本机无法上网 连接不到特定的 ...
- Python2.x爬虫入门之URLError异常处理
大家好,本节在这里主要说的是URLError还有HTTPError,以及对它们的一些处理. 1.URLError 首先解释下URLError可能产生的原因: (1)网络无连接,即本机无法上网 (2)连 ...
- 爬虫入门之爬取策略 XPath与bs4实现(五)
爬虫入门之爬取策略 XPath与bs4实现(五) 在爬虫系统中,待抓取URL队列是很重要的一部分.待抓取URL队列中的URL以什么样的顺序排列也是一个很重要的问题,因为这涉及到先抓取那个页面,后抓取哪 ...
- 爬虫入门之urllib库详解(二)
爬虫入门之urllib库详解(二) 1 urllib模块 urllib模块是一个运用于URL的包 urllib.request用于访问和读取URLS urllib.error包括了所有urllib.r ...
- Python爬虫入门(二)之Requests库
Python爬虫入门(二)之Requests库 我是照着小白教程做的,所以该篇是更小白教程hhhhhhhh 一.Requests库的简介 Requests 唯一的一个非转基因的 Python HTTP ...
- openresty 前端开发入门五之Mysql篇
openresty 前端开发入门五之Mysql篇 这章主要演示怎么通过lua连接mysql,并根据用户输入的name从mysql获取数据,并返回给用户 操作mysql主要用到了lua-resty-my ...
随机推荐
- yum配置文件下使用自定义变量
yum的配置文件中,可以使用的变量,简称为yum变量: 默认的yum变量有: $releasever(Release Version),发行版的版本 $arch,CPU体系结构,通过 Python 的 ...
- Request&Response总结
Request&Response Request 请求对象的类视图 请求对象常用方法 获取请求路径 返回值 方法名 说明 String getContextPath() 获取虚拟目录名称 St ...
- [noip模拟]分组行动
题目描述 最近,木木中学要举行一年一度的辩论赛了,我们活泼开朗乐观向上不寂寞不生病不挂科天天回家吃饭的新时代好少年--飞飞,自然是热情参与咯!辩论嘛,就有正方和反方两个组,这是一个传统项目,所以,包括 ...
- RecyclerView 源码分析(二) —— 缓存机制
在前一篇文章 RecyclerView 源码分析(一) -- 绘制流程解析 介绍了 RecyclerView 的绘制流程,RecyclerView 通过将绘制流程从 View 中抽取出来,放到 Lay ...
- SQLSERVER 修改数据实例的排序规则
SQL Server服务器修改排序规则的方法 操作及验证步骤: 1 登录数据库后,查看当前安装数据库默认排序规则的两种方式 方式一.使用SQL Server 2014 Management Studi ...
- Atlas 2.1.0 实践(3)—— Atlas集成HIve
Atlas集成Hive 在安装好Atlas以后,如果想要使用起来,还要让Atlas与其他组件建立联系. 其中最常用的就是Hive. 通过Atlas的架构,只要配置好Hive Hook ,那么每次Hiv ...
- 【分享】每个 Web 开发者在 2021 年必须拥有 15 个 VSCode 扩展
为什么VSCode如此受欢迎 Visual Studio Code在开发人员中迅速流行起来,它是最流行的开发环境,可定制性是其流行的原因之一. 因此,如果你正在使用VSCode,这里有一个扩展列表,你 ...
- charles安装使用乱码连手机等问题解决方案
捣鼓半天终于安装好了,给大家分享下我的过程 1.安装, 正常网上安装即可,我安装了个有汉化包的,,推荐链接 安装方法下载破解版,安装即可 安装包地址:https://pan.baidu.com/s/1 ...
- RMI笔记
这是<java核心技术> 第11章 分布式对象的笔记. RMI基本原理 我们使用远程方法调用是希望达到这样的目的: 可以像调用本地方法一样去调用一个远程方法. 实现远程调用的方式是 为客户 ...
- 自监督图像论文复现 | BYOL(pytorch)| 2020
继续上一篇的内容,上一篇讲解了Bootstrap Your Onw Latent自监督模型的论文和结构: https://juejin.cn/post/6922347006144970760 现在我们 ...