Scrapy官网程序执行示例
Windows 10家庭中文版本,Python 3.6.4,Scrapy 1.5.0,
Scrapy已经安装很久了,前面也看了不少Scrapy的资料,自己尝试使其抓取微博的数据时,居然连登录页面(首页)都进不去,后又在前几日补充学习了re、requests、urllib3、bs4.BeautifulSoup的一些知识后,今天正式开始学习Scrapy爬虫框架。希望通过学习和实践,可以开发出分布式爬虫程序,可以抓取各种网站的数据,包括微博的,包括不熟悉的暗网的。
本文介绍了运行Scrapy官网的示例的过程。
由于孤的系统安装了Python 2.7和Python 3.6,因此,在第一次运行时居然出错了。
1.在Eclipse中编写程序(有自动提示)


2.打开命令行执行程序
第一次输入的是官网的命令:scrapy runspider scrapy0.py,结果执行错误——默认使用了Python 2.7的解释器。


更改执行命令为:python3 -m scrapy runspider scrapy0.py,再次执行,成功:

显示抓取到的数据:

执行scrapy runspider命令后发生了什么呢?在官文Scrapy at a glance中有介绍。

3.在命令行中结束程序:Ctrl+C

4.其它
4.1. 源码解读
其实,在编写爬虫程序之前,首先应该分析网站的数据的,然后再根据网站的数据指定抓取规则。
在官网示例中,抓取的是https://blog.scrapinghub.com中的文章的标题,这个标题位于class为entry-title的<h2>标签中,但这个标题的文字又被一个<a>标签包含,因此,才有了parse函数中的解析语法:
response.css('h2.entry-title')
title.css('a ::text').extract_first()
因为一个页面上有多个文章引用,因此,首先用for循环打印此本页的所有标题,
然后,执行【翻页】,去新的页面找到新的标题,于是有了parse中的第二个for循环。
但孤对第二个for循环中的response.follow(...)函数了解有限,还需阅读官网,大概的功能就是 跳转到新页面——<a>标签对象,指定解析函数——还是这个parse函数。
4.2. 网页分析——重难点
其实,开发爬虫程序前,首先要确定源网站的数据格式,需要对源网站进行网页结构、数据分析等工作,而且这个工作会在网页改版后立即调整——调整会导致爬虫【短时间】失效,也可能【长时间】失效。
下面是https://blog.scrapinghub.com的分析(这个比较简单,之前看的文章都是拿知乎、微博、博客园做例子,非常“凶残”):使用了Chrome浏览器的Developer Tool(F2 或 Ctrl + Shift + J打开)


4.3. 继续改进
Scrapy首页中是在命令行执行程序,其实,可以在Eclipse中直接执行,需要写更多代码,还需dig;
Scrapy首页还提到了部署,可以试试部署到云平台或自己的服务器;
之前看资料讲,需要设定爬虫的运行周期或频率,不一定要每时每刻运行,也是可以在Scrapy中配置吧?或者要外部程序?
本示例的抓取结果是输出到命令行窗口,之前看的资料提示可以结合Mongodb、Redis将抓取的数据存储到本地,那么,这就会涉及到更多内容了,比如,重复抓取数据、抓取数据的页面/图片保存、数据量太大、制定关键字抓取等,一个一个来解决;
5.示例启动过程
5.1. 启动
INFO: Scrapy 1.5.0 started (bot: scrapybot)
INFO: Versions: lxml 4.2.1.0, ...
INFO: Enabled extensions: ...
INFO: Enabled downloader middlewares: ...
INFO: Enabled spider middlewares: ...
INFO: Enabled item pipelines: ...
INFO: Spider opened
INFO: Crawled 0 pages (at 0 pages/min), scraped 0 items (at 0 items/min)
DEBUG: Crawled (200) <GET https://blog.scrapinghub.com> (referer: None)
...数据来了...
5.2. 结束
INFO: Dumping Scrapy stats:
{
...
'finish_reason': 'shutdown',
'finish_time': datetime.datetime(2018, 6, 26, 1, 13, 42, 25259),
'request_depth_max': 4,
...
'start_time': datetime.datetime(2018, 6, 26, 1, 13, 36, 126224)}
INFO: Spider closed (shutdown)
6.后记
之前看爬虫资料时,觉得自己可以做一个系统给每个人提供 个性化的爬虫(自行指定关键词)。在和朋友聊过后发现,原来,今日头条就是这个干的啊。哈,谁让自己不早点学习呢。
Scrapy官网程序执行示例的更多相关文章
- Threejs 官网 - 怎样执行本地的东西(How to run things locally)
Threejs 官网 - 怎样执行本地的东西(How to run things locally) 太阳火神的漂亮人生 (http://blog.csdn.net/opengl_es) 本文遵循&qu ...
- KEIL建立新唐MCU的工程时,移植官网程序报错变量未定义问题解决方法
最近在使用新唐的MCU,新唐的MCU使用还算方便,你安装好KEIL之后再安装 Nu-Link_Keil_Driver_V3.00.6909 驱动即可建立新唐的MCU工程,注意的是因为新唐MCU是C51 ...
- [微软官网] SQLSERVER 执行页面还原
执行页面还原 https://docs.microsoft.com/zh-cn/previous-versions/sql/sql-server-2008-r2/ms175168(v=sql.105) ...
- 贝叶斯、朴素贝叶斯及调用spark官网 mllib NavieBayes示例
贝叶斯法则 机器学习的任务:在给定训练数据A时,确定假设空间B中的最佳假设. 最佳假设:一种方法是把它定义为在给定数据A以及B中不同假设的先验概率的有关知识下的最可能假设 贝叶斯理论提供了 ...
- Microsoft Power BI Desktop概念学习系列之Microsoft Power BI Desktop的官网自带示例数据(图文详解)
不多说,直接上干货! https://docs.microsoft.com/zh-cn/power-bi/sample-datasets 后续的博文系列,将进行深入的剖析和分享. 欢迎大家,加入我的微 ...
- APOC官网触发器示例执行后Web页面一直转圈
apoc使用触发器:如apoc官网指导 CREATE (d:Person {name:'Daniel'}) CREATE (l:Person {name:'Mary'}) CREATE (t:Pers ...
- [踩过的坑]Elasticsearch.Net 官网示例的坑
经过昨天的ElasticSearch 安装,服务以及可以启动了,接下来就可以开发了,找到了官网提供的API以及示例,Es 官方提供的.net 客户端有两个版本一个低级版本: [Elasticsearc ...
- docker swarm(当前官网示例)
介绍 Docker Swarm 是 Docker 公司推出的官方容器集群平台,基于 Go 语言实现 作为容器集群管理器,Swarm 最大的优势之一就是 100% 支持标准的 Docker API.各种 ...
- 【重点突破】—— UniApp 微信小程序开发官网学习Two
一.使用Vue.js注意事项 Vue.js在uni-app中使用的差异: 新增:uni-app除了支持Vue实例的生命周期,还支持应用启动.页面显示等生命周期 受限:发布到H5时支持所有vue的语法, ...
随机推荐
- easyui动态生成双列头
实习时老大交给任务,让我做这样一个效果,选择日期并点击查询时,动态生成列头,下一列要求对应日期的星期. 效果图: 下面贴出查询的单击函数: //查询按钮 function queryByDate(){ ...
- Codeforces 148D 一袋老鼠 Bag of mice | 概率DP 水题
除非特别忙,我接下来会尽可能翻译我做的每道CF题的题面! Codeforces 148D 一袋老鼠 Bag of mice | 概率DP 水题 题面 胡小兔和司公子都认为对方是垃圾. 为了决出谁才是垃 ...
- Linux及安全实践四——ELF文件格式分析
Linux及安全实践四——ELF文件格式分析 一.ELF文件格式概述 1. ELF:是一种对象文件的格式,用于定义不同类型的对象文件中都放了什么东西.以及都以什么样的格式去放这些东西. 二.分析一个E ...
- 「CodePlus 2017 11 月赛」Yazid 的新生舞会(树状数组/线段树)
学习了新姿势..(一直看不懂大爷的代码卡了好久T T 首先数字范围那么小可以考虑枚举众数来计算答案,设当前枚举到$x$,$s_i$为前$i$个数中$x$的出现次数,则满足$2*s_r-r > 2 ...
- css基础--常用css属性02
上篇地址:css基础--常用css属性01 本文参考菜鸟教程和w3school 1 浮动和清除浮动 在上篇的第十一节--定位中说道: CSS 有三种基本的定位机制:普通流.浮动和绝对定位. 普通流和 ...
- 深入理解FIFO
深入理解FIFO(包含有FIFO深度的解释) FIFO: 一.先入先出队列(First Input First Output,FIFO)这是一种传统的按序执行方法,先进入的指令先完成并引退,跟着才执行 ...
- ShareRepository
文件共享下载链接: 1:关于模拟器的配置附件http://pan.baidu.com/s/1jGFqfh8 原文地址:http://www.cnblogs.com/killerlegend/p/382 ...
- bzoj千题计划163:bzoj1060: [ZJOI2007]时态同步
http://www.lydsy.com/JudgeOnline/problem.php?id=1060 以激发器所在节点为根 终止节点一定是叶节点 记录点的子树内最深的终止节点 然后从根往下使用道具 ...
- iframe元素的学习(笔记)
什么是iframe:iframe元素即内联框架,iframe是内联的并且承前启后,对于外围的页面,iframe是一个普通的元素,对于iframe里面的内容,又是一个五脏俱全的页面.重下面的写法可以看出 ...
- 20155235 2016-2017-2 《Java程序设计》第六周学习总结
20155235 2016-2017-2 <Java程序设计>第六周学习总结 教材学习内容总结 第十章 InputStream与OutputStreaam 串流设计的概念 串流继承架构 川 ...