1.环境搭建

2.选择需要的.whl文件下载,一般选择最后的,感觉意思是最近更新的包,以下是.whl文件下载链接地址:

http://www.lfd.uci.edu/~gohlke/pythonlibs/

1.python:表示包文件。

2.whl 格式:这是一个压缩包,在其中包含了py文件,以及经过编译的pyd文件。

这个格式可以使文件在不具备编译环境的情况下,选择合适自己的python环境进行安装。

 

安装方法如下

进入命令行输入:pip install xxxx.whl

升级方法如下

进入命令行输入:pip install -U xxxx.whl

因为这个Scarpy是依赖这个Twised这个的  所以可以安装这个whl  文件  Scarpy依赖环境

E:\Develop\Scripts  这个目录下  cmd  pip install 安装

还有一种方法是安装  visualcppbuildtools_full   不过这个安装可能有点久

pip install scrapy

然后找到相应的 whl  Twised.whl  安装就好了   去到对应的路径安装

2.基本使用

因为不同于Django,flask  新建项目有选择的  所以我们只能通过命令来创建

scrapy startproject first-scrapy

创建一个爬虫   scrapy genspider 爬虫名 爬虫的地址  baidu  baidu.com

  • name: 它定义了蜘蛛的唯一名称

  • allowed_domains: 它包含了蜘蛛抓取的基本URL;(只认定这个域名)

  • start-urls: 蜘蛛开始爬行的URL列表;

  • parse(): 这是提取并解析刮下数据的方法;

运行爬虫  scrapy crawl 爬虫名

3.数据提取

第一步一定要记得修改User-Agent

不加这个  .extract返回一个unicode字符创      Selector返回的是选择器  为什么会返回的是选择器呢?这样还可以继续Xpath筛选

利用框架如何快速的爬取资料:先创建scrapy项目    设置请求头User-Agent  设置url

利用Scrapy自带的Xpath选择器筛选  输出即可  这是最简单的  输出到控制台

既然可以输出到控制台那么其实保存都文件也容易

json.cn

.csv  是一种表格的形式  可以用excel打开

在哪了提取这些数据  在response啊   可以直接

scrapy crawl zhongheng -o book.json

4.如何推送到 pipeline 

通过yield

然后item接受

打印item  但是和在spider中的输入输出不一样呀  并没有打印这个item 没有白色的日志

在setting中打开ITEM_PIPELINES  他是一个字典,前面是item_pipeline路径,数字表示优先级

“w”会覆盖以前的信息  “a”会追加

有一个问题是:文件会重复开启 如何让文件只开启一次呢

这就是利用pipeline保存我们数据的问题

在item模板中 无论什么数据类型

都可以用 scrapy fielter

这回推送的Item中的类对象 还是通过yield推送  所以还要记得转字典,也要记得转字符串

6.Scrapy 的细节

可以爬取 不同的网页,不同类型的网页,只需要写一个spider就好了。

但是我要怎么处理筛选呢? 通过response的url来判断  这是广度爬取

还有一个深度  一种爬虫方式。就是先遍历完左边的再慢慢的推到右边

小说练习

1.第一种找url规律的方法  看是否递增啥的

2.将所有的url都拿出来  挨个去访问

有一个叫文件流的东西,就是当只有内存的满了才会存到文件中

那怎么让它实时的存储呢  那就要用flush了

访问的间隔 download_delay = 3

第一部分完了

  大概的知道这个框架的运行流程了,也知道怎么用xpath了也可以连续的

爬取了,如何推送,如何的保存这些数据。这应该是小的一部分吧

在继承与CrawlSpider中  restrict  提取到那个标签就可以了

创建新的spider  用 -t  crawl  选择使用这个模板

copy  xpath  这么使用吗

 

2019.04.23 Scrapy框架的更多相关文章

  1. Python 爬取 北京市政府首都之窗信件列表-[Scrapy框架](2020年寒假小目标04)

    日期:2020.01.22 博客期:130 星期三 [代码说明,如果要使用此页代码,必须在本博客页面评论区给予说明] //博客总体说明 1.准备工作(本期博客) 2.爬取工作 3.数据处理 4.信息展 ...

  2. Scrapy爬虫框架(实战篇)【Scrapy框架对接Splash抓取javaScript动态渲染页面】

    (1).前言 动态页面:HTML文档中的部分是由客户端运行JS脚本生成的,即服务器生成部分HTML文档内容,其余的再由客户端生成 静态页面:整个HTML文档是在服务器端生成的,即服务器生成好了,再发送 ...

  3. 学习scrapy框架爬小说

    一.背景:近期学习python爬虫技术,感觉挺有趣.由于手动自制爬虫感觉效率低,了解到爬虫界有先进的工具可用,尝试学学scrapy爬虫框架的使用. 二.环境:centos7,python3.7,scr ...

  4. Python爬虫Scrapy框架入门(2)

    本文是跟着大神博客,尝试从网站上爬一堆东西,一堆你懂得的东西 附上原创链接: http://www.cnblogs.com/qiyeboy/p/5428240.html 基本思路是,查看网页元素,填写 ...

  5. Python使用Scrapy框架爬取数据存入CSV文件(Python爬虫实战4)

    1. Scrapy框架 Scrapy是python下实现爬虫功能的框架,能够将数据解析.数据处理.数据存储合为一体功能的爬虫框架. 2. Scrapy安装 1. 安装依赖包 yum install g ...

  6. 爬虫基础(五)-----scrapy框架简介

    ---------------------------------------------------摆脱穷人思维 <五> :拓展自己的视野,适当做一些眼前''无用''的事情,防止进入只关 ...

  7. Scrapy 框架简介

    Scrapy 框架 介绍 Scrapy一个开源和协作的框架,其最初是为了页面抓取 (更确切来说, 网络抓取 )所设计的,使用它可以以快速.简单.可扩展的方式从网站中提取所需的数据.但目前Scrapy的 ...

  8. [Python][Scrapy 框架] Python3 Scrapy的安装

    1.方法(只介绍 pip 方式安装) PS.不清楚 pip(easy_install) 可以百度或留言. cmd命令: (直接可以 pip,而不用跳转到 pip.exe目录下,是因为把所在目录加入 P ...

  9. 解读Scrapy框架

    Scrapy框架基础:Twsited Scrapy内部基于事件循环的机制实现爬虫的并发.原来: url_list = ['http://www.baidu.com','http://www.baidu ...

随机推荐

  1. Git使用九:合并和删除分支

    实际开发中的分支 目前的快照情况:git log --decorate --all --oneline --graph 可以看到,目前HEAD是指向的master分支 合并分支:git merge 分 ...

  2. 一 .isinstance(obj,cls)和issubclass(sub,super)

    class Foo: pass class Bar(Foo): pass obj = Bar() isinstance(obj,cls)检查是否obj是否是类 cls 的对象 print(isinst ...

  3. (五)Knockout template模版渲染

    基础 template绑定通过模板将数据render到页面.模板绑定对于构建嵌套结构的页面非常方便.默认情况, Knockout用的是流行的jquery.tmpl模板引擎.使用它的话,需要在安装页面下 ...

  4. python---哈希算法实现

    # coding = utf-8 class Array: def __init__(self, size=32, init=None): self._size = size self._items ...

  5. 提取C3D视频特征(官方文档&实践)

    C3D Introduction 卷积神经网络(CNN)近年被广泛应用于计算机视觉中,包括分类.检测.分割等任务.这些任务一般都是针对图像进行的,使用的是二维卷积(即卷积核的维度为二维).而基于视频的 ...

  6. .net core2.x - Identity - 简介

  7. 《MySQL必知必会》整理

    目录 第1章 了解数据库 1.1 数据库基础 1.1.1 什么是数据库 1.1.2 表 1.1.3 列和数据类型 1.1.4 行 1.1.5 主键 1.2 什么是SQL 第2章 MySQL简介 2.1 ...

  8. 大数据技术 - MapReduce 应用的配置和单元测试

    上一章的 MapReduce 应用中,我们使用了自定义配置,并用 GenericOptionsParser 处理命令行输入的配置,这种方式简单粗暴.但不是 MapReduce 应用常见的写法,本章第一 ...

  9. 一份详细的asyncio入门教程

    asyncio模块提供了使用协程构建并发应用的工具.它使用一种单线程单进程的的方式实现并发,应用的各个部分彼此合作, 可以显示的切换任务,一般会在程序阻塞I/O操作的时候发生上下文切换如等待读写文件, ...

  10. 自己总结的C#编码规范--7.文档下载 & 总结

    今天终于把这一系列的编码规范写完了,这个编码规范算上前面阅读相关书籍,前前后后总共花了一个月的时间,也算是个人的呕心沥血之作了. 本来也没打算把这个系列写的这么长,但是在写的过程中自己搜了相关的网上资 ...