Scrapy框架Crawler模板爬虫

1、创建一个CrawlerSpider

scrapy genspider -t crawl wx_spider 'wxapp-union.com'

#导入规则

from scrapy.spiders import Rule,CrawlSpider

from scrapy.linkextractors import LinkExtractor

2、Rule规则

class scrapy.spiders.Rule(

    link_extractor,#一个LinkExtractor对象，用于定义爬取规则

    callback，#满足这个规则的url执行的回调函数 【注意】：不要使用parse函数，因为Crawlspider征用了

    follow,#指定根据该规则从response又提取出类似链接要不要继续跟进, 默认为True

    process_link，#从link_extractor中获取到的链接会传递给这个函数，用于过滤不需要爬取的链接

)

3、LinkExtractor提取器

class scrapy.linkextractors.LinkExtractor(

    allow=(),#允许的url，满足这个正则表达式的url都会被提取

    deny=(),#不允许的url

    allow_domains=(),#允许的域名

    deny_domains=(),#禁止的域名

    restrict_xpaths=(),#严格的xpath，与allow共同过滤

    unique=True/False，#链接是否去重

)

示例（抓取微信小程序社区）

class WxSpiderSpider(CrawlSpider):

    name = 'wx_spider'

    allowed_domains = ['wxapp-union.com']

    start_urls = ['http://www.wxapp-union.com/portal.php?mod=list&catid=2&page=1']

    rules = (

        Rule(LinkExtractor(allow=r'.+mod=list&catid=2&page=\d'), follow=True),#定义页面抓取规则，这里允许跟进

        Rule(LinkExtractor(allow=r'.+/article-.+\.html'),callback = "parse_detail_page", follow=False)#定义内容抓取规则，这里不允许跟进，也就是内容页上的类似链接不跟进

    )

    def parse_detail_page(self, response):

        title = response.xpath('//h1[@class="ph"]/text()').get()

        content =response.xpath('//td[@id="article_content"]//text()').getall()

        content = ''.join(content)

        author_p = response.xpath('//p[@class="authors"]')

        author=author_p.xpath('.//a/text()').get()

        pub_time=author_p.xpath('.//span/text()').get()

        yield WxappItem(title=title,author=author,pub_time=pub_time,content=content)

Scrapy框架Crawler模板爬虫的更多相关文章

Scrapy框架——CrawlSpider类爬虫案例
Scrapy--CrawlSpider Scrapy框架中分两类爬虫,Spider类和CrawlSpider类. 此案例采用的是CrawlSpider类实现爬虫. 它是Spider的派生类,Spide ...
python学习之-用scrapy框架来创建爬虫(spider)
scrapy简单说明 scrapy 为一个框架框架和第三方库的区别: 库可以直接拿来就用, 框架是用来运行,自动帮助开发人员做很多的事,我们只需要填写逻辑就好命令: 创建一个项目 : cd 到需 ...
如何使用Scrapy框架实现网络爬虫
现在用下面这个案例来演示如果爬取安居客上面深圳的租房信息,我们采取这样策略,首先爬取所有租房信息的链接地址,然后再根据爬取的地址获取我们所需要的页面信息.访问次数多了,会被重定向到输入验证码页面,这个 ...
scrapy框架修改单个爬虫的配置,包括下载延时，下载超时设置
在一个框架里面有多个爬虫时,每个爬虫的需求不相同,例如,延时的时间,所以可以在这里配置一下custom_settings = {},大括号里面写需要修改的配置,然后就能把settings里面的配置给覆 ...
一个基于Scrapy框架的pixiv爬虫
源码 https://github.com/vicety/Pixiv-Crawler,功能什么的都在这里介绍了说几个重要的部分吧登录部分困扰我最久的部分,网上找的其他pixiv爬虫的登录方式大多 ...
python基于scrapy框架的反爬虫机制破解之User-Agent伪装
user agent是指用户代理,简称 UA. 作用:使服务器能够识别客户使用的操作系统及版本.CPU 类型.浏览器及版本.浏览器渲染引擎.浏览器语言.浏览器插件等. 网站常常通过判断 UA 来给不同 ...
基于scrapy框架的分布式爬虫
分布式概念:可以使用多台电脑组件一个分布式机群,让其执行同一组程序,对同一组网络资源进行联合爬取. 原生的scrapy是无法实现分布式调度器无法被共享管道无法被共享基于 scrapy+redi ...
scrapy框架与python爬虫
关于使用scrapy框架编写爬虫以及Ajax动态加载问题、反爬问题解决方案
Python爬虫总结总的来说,Python爬虫所做的事情分为两个部分,1:将网页的内容全部抓取下来,2:对抓取到的内容和进行解析,得到我们需要的信息. 目前公认比较好用的爬虫框架为Scrapy,而且 ...

随机推荐

左神算法书籍《程序员代码面试指南》——3_05Morris遍历二叉树的神级方法【★★★★★】
[问题]介绍一种时间复杂度O(N),额外空间复杂度O(1)的二叉树的遍历方式,N为二叉树的节点个数无论是递归还是非递归,避免不了额外空间为O(h),h 为二叉树的高度使用morris遍历,即利用空节点 ...
c++ const的用法
1.修饰成员变量 int value=0; int *p=&value; const int *p_c=&value;//指针指向常量,但是指针所指向的地址可以修改(int const ...
js 实现加载百分比效果
效果: html: <!DOCTYPE html> <html> <head> <meta charset="utf-8"> < ...
解决Eclipse建立Maven Web项目后找不到src/main/java资源文件夹的办法
问题如题,明细见下图: 解决方法: 在项目上右键选择properties,然后点击java build path,在Librarys下,编辑JRE System Library,选择workspace ...
迭代器/生成器/装饰器 /Json & pickle 数据序列化
本节内容迭代器&生成器装饰器 Json & pickle 数据序列化软件目录结构规范作业:ATM项目开发 1.列表生成式,迭代器&生成器列表生成式孩子,我现在有个需 ...
常用DOM API总结
一. 获取节点 1. 获取元素节点 getElementsById getElementsByTagName getElementsByClassName 2. 获取属性节点 getAttribute ...
廖雪峰Java14Java操作XML和JSON-1XML-3SAX
SAX:Simple API for XML 基于事件的API import javax.xml.parsers.SAXParser; import javax.xml.parsers.SAXPars ...
19-11-2-M
最后一个当然要模自己辣. %%%Miemengsb ZJ一下: 三道题没有一道会的,唯一的20还是T2输出$n/2$得的咝…… T1一看,只会暴力. T2一看,像是状压,但是我是$dpsb$,于是弃 ...
java.sql.SQLException
java.sql.SQLException 出错:java.sql.SQLException: com.mchange.v2.c3p0.ComboPooledDataSource[ identityT ...
Java序列化接口的作用总结1
一个对象有对应的一些属性,把这个对象保存在硬盘上的过程叫做”持久化”. 把堆内存中的对象的生命周期延长,存入硬盘,做持久化操作.当下次再需要这个对象的时候,我们不用new了,直接从硬盘中读取就可以了. ...

Scrapy框架Crawler模板爬虫

1、创建一个CrawlerSpider

2、Rule规则

3、LinkExtractor提取器

示例（抓取微信小程序社区）

Scrapy框架Crawler模板爬虫的更多相关文章

随机推荐

热门专题