Scrapy框架(一)--初识

scrapy初识
什么是框架？
　　所谓的框架简单通用解释就是就是一个具有很强通用性并且集成了很多功能的项目模板，该模板可被应用在不同的项目需求中。

也可被视为是一个项目的半成品。

如何学习框架？
　　对于刚接触编程或者初级程序员来讲，对于一个新的框架，只需要掌握该框架的作用及其各个功能的使用和应用即可，对于框架的底层实现和原理，在逐步进阶的过程中在慢慢深入即可。

什么是scrapy？
　　Scrapy是一个为了爬取网站数据，提取结构性数据而编写的应用框架，非常出名，非常强悍。其内部已经被集成了各种功能（高性能异步下载，队列，分布式，解析，持久化等）。

对于框架的学习，重点是要学习其框架的特性、各个功能的用法即可。

scrapy基本使用

环境安装：

linux和mac操作系统：

pip install scrapy

windows系统：

pip install wheel

下载twisted，下载地址为http://www.lfd.uci.edu/~gohlke/pythonlibs/#twisted

安装twisted：pip install Twisted‑17.1.0‑cp36‑cp36m‑win_amd64.whl

pip install pywin32

pip install scrapy

测试：在终端里录入scrapy指令，没有报错即表示安装成功！

scrapy使用流程：
　　创建工程：
　　　　scrapy startproject ProName
　　进入工程目录：
　　　　cd ProName
　　创建爬虫文件：
　　　　scrapy genspider spiderName www.xxx.com
　　编写相关操作代码
　　执行工程：
　　　　scrapy crawl spiderName

爬虫文件剖析

  # -*- coding: utf-8 -*-

  import scrapy

  class QiubaiSpider(scrapy.Spider):

      name = 'qiubai' #应用名称

      #允许爬取的域名（如果遇到非该域名的url则爬取不到数据）一般注释掉

      # allowed_domains = ['https://www.qiushibaike.com/']

      #起始爬取的url

      start_urls = ['https://www.qiushibaike.com/']

      #访问起始URL并获取结果后的回调函数，该函数的response参数就是向起始的url发送请求后，获取的响应对象.该函数返回值必须为可迭代对象或者NUll

      def parse(self, response):

          print(response.text) #获取字符串类型的响应内容

          print(response.body)#获取字节类型的相应内容

配置文件settings.py修改

  #修改内容及其结果如下：

  #19行：

  USER_AGENT = 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.106 Safari/537.36' #伪装请求载体身份

  22行：ROBOTSTXT_OBEY = False  #可以忽略或者不遵守robots协议

  # 打印日志的错误信息

  LOG_LEVEL='ERROR'

示例：爬取糗事百科的段子数据

# -*- coding: utf-8 -*-

import scrapy

class QiushiSpider(scrapy.Spider):

    name = 'qiushi'

    # allowed_domains = ['www.xxx.com']

    start_urls = ['https://www.qiushibaike.com/text/']

    def parse(self, response):

        div_list = response.xpath('//div[@class="col1 old-style-col1"]/div')

        all_data = []

        for div in div_list:

            # xpath返回的是列表 列表中是Selector对象

            # extract() 可将对象中的data参数存储的字符串取出

            # author = div.xpath('./div[1]/a[2]/h2/text()')[0].extract()

            author = div.xpath('./div[1]/a[2]/h2/text()').extract_first()  # extract_first()在确定列表只有一个元素的情况下使用

            # 列表调用extract() 将列表中每一个Selector对象的data字符串取出来

            content = div.xpath('./a[1]/div[1]/span//text()').extract()

            content = ''.join(content) # 将列表中的元素拼接成字符串

Scrapy框架(一)--初识的更多相关文章

爬虫(十四)：Scrapy框架(一) 初识Scrapy、第一个案例
1. Scrapy框架 Scrapy功能非常强大,爬取效率高,相关扩展组件多,可配置和可扩展程度非常高,它几乎可以应对所有反爬网站,是目前Python中使用最广泛的爬虫框架. 1.1 Scrapy介绍 ...
scrapy框架系列 (1) 初识scrapy
Scrapy 框架 Scrapy是用纯Python实现一个为了爬取网站数据.提取结构性数据而编写的应用框架,用途非常广泛. 框架的力量,用户只需要定制开发几个模块就可以轻松的实现一个爬虫,用来抓取网页 ...
Python学习---爬虫学习[scrapy框架初识]
Scrapy Scrapy是一个框架,可以帮助我们进行创建项目,运行项目,可以帮我们下载,解析网页,同时支持cookies和自定义其他功能. Scrapy是一个为了爬取网站数据,提取结构性数据而编写的 ...
scrapy框架初识
一.scrapy简介 Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架,非常出名,非常强悍.所谓的框架就是一个已经被集成了各种功能(高性能异步下载,队列,分布式,解析,持久化等)的具 ...
爬虫Ⅱ:scrapy框架
爬虫Ⅱ:scrapy框架 step5: Scrapy框架初识 Scrapy框架的使用 pySpider 什么是框架: 就是一个具有很强通用性且集成了很多功能的项目模板(可以被应用在各种需求中) scr ...
Python爬虫Scrapy框架入门（2）
本文是跟着大神博客,尝试从网站上爬一堆东西,一堆你懂得的东西附上原创链接: http://www.cnblogs.com/qiyeboy/p/5428240.html 基本思路是,查看网页元素,填写 ...
Python爬虫Scrapy框架入门（1）
也许是很少接触python的原因,我觉得是Scrapy框架和以往Java框架很不一样:它真的是个框架. 从表层来看,与Java框架引入jar包.配置xml或.property文件不同,Scrapy的模 ...
Scrapy框架使用—quotesbot 项目（学习记录一）
一.Scrapy框架的安装及相关理论知识的学习可以参考:http://www.yiibai.com/scrapy/scrapy_environment.html 二.重点记录我学习使用scrapy框架 ...
Python爬虫从入门到放弃（十一）之 Scrapy框架整体的一个了解
这里是通过爬取伯乐在线的全部文章为例子,让自己先对scrapy进行一个整理的理解该例子中的详细代码会放到我的github地址:https://github.com/pythonsite/spider ...
Python爬虫从入门到放弃（十二）之 Scrapy框架的架构和原理
这一篇文章主要是为了对scrapy框架的工作流程以及各个组件功能的介绍 Scrapy目前已经可以很好的在python3上运行Scrapy使用了Twisted作为框架,Twisted有些特殊的地方是它是 ...

随机推荐

真正的HTAP对用户和开发者意味着什么？
简介: Gartner 2016 年首次提出 HTAP(Hybrid Transaction / Analytical Processing,混合事务分析处理)并给出明确的定义:即同时支持 OLTP ...
一文了解阿里一站式图计算平台GraphScope
简介: 随着大数据的爆发,图数据的应用规模不断增长,现有的图计算系统仍然存在一定的局限.阿里巴巴拥有全球最大的商品知识图谱,在丰富的图场景和真实应用的驱动下,阿里巴巴达摩院智能计算实验室研发并开源了全 ...
面对DNS劫持，只能坐以待毙吗？
简介: 借助 ARMS-云拨测,我们可实时对网站进行监控,实现分钟级别的监控,及时发现 DNS 劫持以及页面篡改. 作者:白玙 DNS 劫持作为最常见的网络攻击方式,是每个站长或者运维团队最为头疼的 ...
5分钟搞定Loki告警多渠道接入
简介: Loki是受Prometheus启发的水平可扩展.高可用.多租户日志聚合系统.用户既可以将Loki告警直接接入SLS开放告警,也可以先将Loki接入Grafana或Alert Manager ...
Flink 在 58 同城的应用与实践
简介: 58 同城的实时 SQL 建设以及如何从 Storm 迁移至 Flink. 本文整理自 58 同城实时计算平台负责人冯海涛在 Flink Forward Asia 2020 分享的议题< ...
[GPT] Linux 如何查看 crontab 的运行记录
要查看crontab的运行记录,可以使用以下命令: $ grep CRON /var/log/syslog 或者 $ tail /var/log/syslog 这将在 /var/log/syslo ...
[Go] flag package 指南: 命令行参数标记的解析
flag 是 Golang 的官方包. 支持用法有三种,不同之处是二三两种用法是 Var() 函数可以绑定 flag 到一个变量上. 直接调用指定类型的函数有多种,如 flag.String(), B ...
WPF 如何获取有哪些 VisualBrush 用了某个控件
我写了一个特殊的控件,我期望了解到有哪些 VisualBrush 捕获了此控件,或者说有哪些 VisualBrush 用了此控件的界面本文的方法需要用到反射,需要使用 WPF 框架里面没有公开的字段 ...
特权同学笔记-《边练边学》-在QP里调用modelsim的步骤
在QP里调用Modelsim需要先设置仿真参数和工具路径. 在QP调用modelsim的步骤 1. 在QP里建立工程,代码,分析综合:2. 添加testbench代码,processing-start ...
【YoloDeployCsharp】基于.NET Framework的YOLO深度学习模型部署测试平台
1. 项目介绍基于.NET Framework 4.8 开发的深度学习模型部署测试平台,提供了YOLO框架的主流系列模型,包括YOLOv8~v9,以及其系列下的Det.Seg.Pose.Obb ...

Scrapy框架(一)--初识

scrapy基本使用

Scrapy框架(一)--初识的更多相关文章

随机推荐

热门专题