scrapy爬虫系列之五--CrawlSpider的使用

功能点：CrawlSpider的基本使用

爬取网站：保监会

主要代码：

cf.py

# -*- coding: utf-8 -*-

import scrapy

from scrapy.linkextractors import LinkExtractor

from scrapy.spiders import CrawlSpider, Rule

import re

class CfSpider(CrawlSpider):    # 继承自CrawlSpider

    """主要是介绍CrawlSpider的用法"""

    name = 'cf'

    allowed_domains = ['circ.gov.cn']

    # 第一次请求的url，如果有特殊需求，可以定义一个parse_start_url函数来处理这个url所对应的响应

    start_urls = ['http://circ.gov.cn/web/site0/tab5240/']

    rules = (

        # LinkExtractor 链接提取器，提取url地址

        # callback 可以没有

        # follow 当前url的响应是否重新经过rules来提取url

        # 注意点：

        # 1、两个Rule的callback解析函数，不能直接传递参数

        # 2、如果多个Rule都满足同一个url，会从rules中选择第一个满足的操作

        # 详情的url提取器

        Rule(LinkExtractor(allow=r'/web/site0/tab5240/info\d+\.htm'), callback='parse_item'),

        # 列表的url提取器

        Rule(LinkExtractor(allow=r'/web/site0/tab5240/module14430/page\d+\.htm'), follow=True),

    )

    # parse是发送url请求的，不能在此定义

    # 解析详情页

    def parse_item(self, response):

        item = {}

        # 通过正则匹配

        item["title"] = re.findall("<!--TitleStart-->(.*?)<!--TitleEnd-->", response.body.decode())[0]

        item["publish_time"]  = re.findall("发布时间：(20\d{2}-\d{2}-\d{2})", response.body.decode())[0]

        print(item)

        print("*"*30)

    #     # 此处也可以接着构造请求

    #     yield scrapy.Request(

    #         url,

    #         callback=self.parse_detail,

    #         meta={"item": item}

    #     )

    #

    # # 构造其他属性

    # def parse_detail(self, response):

    #     item = response.meta["item"]

    #     item["price"] = 11

    #     yield item

scrapy爬虫系列之五--CrawlSpider的使用的更多相关文章

[Python爬虫] scrapy爬虫系列 <一>.安装及入门介绍
前面介绍了很多Selenium基于自动测试的Python爬虫程序,主要利用它的xpath语句,通过分析网页DOM树结构进行爬取内容,同时可以结合Phantomjs模拟浏览器进行鼠标或键盘操作.但是,更 ...
scrapy爬虫系列之七--scrapy_redis的使用
功能点:如何发送携带cookie访问登录后的页面,如何发送post请求登录简单介绍: 安装:pip3 install scrapy_redis 在scrapy的基础上实现了更多的功能:如reques ...
scrapy爬虫系列之开头--scrapy知识点
介绍:Scrapy是一个为了爬取网站数据.提取结构性数据而编写的应用框架,我们只需要实现少量的代码,就能够快速抓取.Scrapy使用了Twisted异步网络框架,可以加快我们的下载速度. 0.说明: ...
scrapy爬虫系列之一--scrapy的基本用法
功能点:scrapy基本使用爬取网站:传智播客老师完整代码:https://files.cnblogs.com/files/bookwed/first.zip 主要代码: ff.py # -*- ...
scrapy爬虫系列之二--翻页爬取及日志的基本用法
功能点:如何翻页爬取信息,如何发送请求,日志的简单实用爬取网站:腾讯社会招聘网完整代码:https://files.cnblogs.com/files/bookwed/tencent.zip 主要 ...
scrapy爬虫系列之六--模拟登录
功能点:如何发送携带cookie访问登录后的页面,如何发送post请求登录爬取网站:bilibili.github 完整代码:https://files.cnblogs.com/files/book ...
scrapy爬虫系列之三--爬取图片保存到本地
功能点:如何爬取图片,并保存到本地爬取网站:斗鱼主播完整代码:https://files.cnblogs.com/files/bookwed/Douyu.zip 主要代码: douyu.py im ...
scrapy爬虫系列之四--爬取列表和详情
功能点:如何爬取列表页,并根据列表页获取详情页信息? 爬取网站:东莞阳光政务网完整代码:https://files.cnblogs.com/files/bookwed/yangguang.zip 主 ...
scrapy爬虫学习系列五：图片的抓取和下载
系列文章列表: scrapy爬虫学习系列一:scrapy爬虫环境的准备: http://www.cnblogs.com/zhaojiedi1992/p/zhaojiedi_python_00 ...

随机推荐

Sprite和UI Image的区别
Unity3D最初是一个3D游戏引擎,而从4.3开始,系统加入了Sprite组件,Unity也终于有了2D游戏开发的官方解决方案.4.6更是增加了新的UI系统uGUI,使得使用Unity开发2D游戏效 ...
删除C盘垃圾文件bat
@ECHO OFF@echo 此批处理由59互联(http://www.59.cn)整理发布@echo @echo 清理几个比较多垃圾文件的地方DEL /F /S /Q "C:\WINDOW ...
使用鼠标监听器，使鼠标悬停在JTable某行时背景色改变
一.需要知道的事实: 1.当鼠标悬停在JTable上时,相应的格子(cell)的渲染器(TableCellRenderer)的渲染方法(getTableCellRenererComponent)会被调 ...
c++虚函数表 Brew VTBL
参考:http://blog.csdn.net/haoel/article/details/1948051/ BREW VTBL:http://blog.chinaunix.net/uid-51740 ...
swift - UISlider 的用法
swift的UISlider的用法和oc基本没有区别 1.创建 class SecondViewController: UIViewController { var slider = UISlider ...
python2.0_s12_day9_事件驱动编程&异步IO
论事件驱动与异步IO 事件驱动编程是一种编程范式,这里程序的执行流由外部事件来决定.它的特点是包含一个事件循环,当外部事件发生时使用回调机制来触发相应的处理.另外两种常见的编程范式是(单线程)同步以及 ...
使用命令wsimport构建WebService客户端
原文:http://www.cnblogs.com/ningvsban/p/3760085.html wsimport命令介绍在JDK的bin文件夹中,有一个wsimport.exe,这个工具依据w ...
《C++ Primer Plus》12.6 复习各种（类和动态内存分配的）技术笔记
12.6.1 重载<<运算符要重新定义<<运算符,以便将它和cout一起用来显示对象的内容,请定义下面的友元运算符函数:ostream & operator<&l ...
元素设置disabled属性后便无法向后台传值
元素设置disabled属性后便无法向后台传值
原来 CSS 与 JS 是这样阻塞 DOM 解析和渲染的
hello~各位亲爱的看官老爷们大家好.估计大家都听过,尽量将CSS放头部,JS放底部,这样可以提高页面的性能.然而,为什么呢?大家有考虑过么?很长一段时间,我都是知其然而不知其所以然,强行背下来应付 ...

scrapy爬虫系列之五--CrawlSpider的使用

scrapy爬虫系列之五--CrawlSpider的使用的更多相关文章

随机推荐

热门专题