作者: 黄进(QQ:7149101) 一. 网络爬虫 网络爬虫(又被称为网页蜘蛛,网络机器人),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本:它是一个自动提取网页的程序,它为搜索引擎从万维网上下载网页,是搜索引擎的重要组成部分. 网络爬虫分类: 通用网络爬虫 通用网络爬虫又称全网爬虫(Scalable Web Crawler),爬行对象从一些种子 URL 扩充到整个 Web,主要为门户站点搜索引擎和大型 Web 服务提供商采集数据.为提高工作效率,通用网络爬虫会采取一定的爬行策略.常…
一.概述 下图显示了Scrapy的大体架构,其中包含了它的主要组件及系统的数据处理流程(绿色箭头所示).下面就来一个个解释每个组件的作用及数据的处理过程. 二.组件 1.Scrapy Engine(Scrapy引擎) Scrapy引擎是用来控制整个系统的数据处理流程,并进行事务处理的触发.更多的详细内容可以看下面的数据处理流程. 2.Scheduler(调度) 调度程序从Scrapy引擎接受请求并排序列入队列,并在Scrapy引擎发出请求后返还给他们. 3.Downloader(下载器) 下载器…
1. 安装Anaconda,因为Anaconda基本把所有需要依赖的环境都一键帮我们部署好了,不需要再操心其他事了,进官网选择需要下载的版本:https://www.anaconda.com/download/ 2. 安装完Anaconda,添加环境变量,见截图 3. 验证Anaconda是否安装OK,打开开始菜单,选择  ,输入命令conda,出现截图的情况就说明装好了,环境变量也是OK的 4. 接下来就是安装scrapy,在刚才的Anaconda Prompt,输入命令:conda inst…
1 创建项目scrapy startproject tutorial 2 定义Itemimport scrapyclass DmozItem(scrapy.Item):    title = scrapy.Field()    link = scrapy.Field()    desc = scrapy.Field()paser完后的数据保存到item列表,在传给pipeline使用 3 编写第一个爬虫(Spider), 保存在 tutorial/spiders 目录下的 dmoz_spider…
使用cmd创建一个scrapy项目: scrapy startproject project_name (project_name 必须以字母开头,只能包含字母.数字以及下划线<underscorce>) 项目目录层级如下: 声明Item 声明我们可能用到的所有字段,包括管理字段等.管理字段可以让我们清楚何时(date).何地(url server)及如何(spider)执行爬去,此外,还可以自动完成诸如使item失效.规划新的抓取迭代或是删除来自有问题的爬虫的item. 管理字段 Pytho…
1.问题     File "/usr/bin/pip", line 9, in <module> load_entry_point('pip==1.5.4', 'console_scripts', 'pip')() File "/usr/lib/python2.7/dist-packages/pkg_resources.py", line 351, in load_entry_point return get_distribution(dist).lo…
scrapy的最通用的爬虫流程:UR2IM U:URL R2:Request 以及 Response I:Item M:More URL 在scrapy shell中打开服务器一个网页 cmd中执行:scrapy shell http://www.baidu.com    (可以使用exit()退出) 此时,scrapy执行一个默认的GET请求,并得到一个状态码为200的响应 可以使用response.body打印页面源码(或部分字符) 例:response.body[:50] 同时,也可使用r…
windows下安装scrapy 依次执行下列操作: pip install wheel pip install lxml pip install PyOpenssl 安装Microsoft visual c++ build tools pip install twisted 当此处提示错误时,安装Microsoft Visual C++ Compiler for Python 2.7 下载地址:https://www.microsoft.com/en-us/download/confirmat…
HTML的三大概念:标签.元素以及属性 标签:尖括号中的文本       例:<head>……</head> 标签通常成对出现 元素:标签中的所有内容        元素中可包含元素 属性:标签的特殊标注等     例:<a href="http:\\www.baidu.com">……</a>  其中,href部分称为属性 使用XPath选择HTML元素 使用‘/’+标签名定位 例: /html/body        将定位到body部…
下载:https://pan.baidu.com/s/1oejHek3Vmu0ZYvp4w9ZLsw <Python 3网络爬虫开发实战>中文PDF+源代码 下载:https://pan.baidu.com/s/1BgQ54kCnGch4eaz4WuoC9w <精通Python爬虫框架Scrapy>中文PDF+英文PDF+源代码 更多资料:https://pan.baidu.com/s/1g4hv05UZ_w92uh9NNNkCaA <Python 3网络爬虫开发实战>…