scrapy中使用LinkExtractor提取链接

le = LinkExtractor(restrict_css='ul.pager li.next')

links = le.extract_links(response)

使用LinkExtractor的过程：

导入LinkExtractor，它是在scrapy中linkextractors中
创建一个Linkextractor对象，使用一个或者多个构造器参数描述提取规则，这里传递给restrict_css参数一个CSS选择器表达式。它描述了下一页链接所在的区域（在li.next下）
调用LinkExtractor对象的extract_links方法传入一个response对象，这个方法一句创建对象的时候描述的的提取规则，在这个response对象的页面中提取链接，最终返回一个列表，其中的每一个元素都是个link对象，也就是提取到的链接
由于页面中的下一页链接只有一个，因此用links[0]获取link对象，link对象的url属性就是链接页面的绝对url地址（无须在调用response.urljoin方法），用它构造request对象并再次提交

描述提取规则

　　特殊情况：

　　　　LinkExtractors构造器的所有的参数都是有默认值的，如果构造对象的时候不传入任何参数，就会自动提取页面中的所有的链接

　　LinkExtractor构造器的各个参数：

1. allow
  1. 正则表达式或者正则表达式列表，提取绝对url和正则表达式匹配的链接，如果为空就会提取所有的链接
2. deny
  1. 正则表达式或者正则表达式列表，与allow相反，排除绝对url与正则表达式匹配的链接
3. allow_domains
  1. 接受一个域名或者一个域名列表，提取到指定域的链接
4. deny_domains
  1. 接受一个域名或者一个域名列表，与allow_domains相反，排除指定域名的链接
5. restrict_xpaths
  1. 接收一个xpath表达式或者一个xpath表达式列表，提取xpath表达式中区域下的链接
6. restrict_css
  1. 接受一个css选择器或者css选择器列表，提取css选择器中指定区域下的链接
7. tags
  1. 接受一个标签（字符串）或者一个标签列表，提取指定标签内的链接
8. attrs
  1. 接收一个属性（字符串）或者一个属性列表，提取指定区域内的链，默认是['href']
9. process_value
  1. 接收一个形如func(value)的回调函数。如果传递了该函数，LinkExtractor将会调用这个回调函数对提取的每一个链接进行处理，回调函数正常情况下应该返回一个字符串（处理结果），想要抛弃所处理的连接的时候，返回None

scrapy中使用LinkExtractor提取链接的更多相关文章

scrapy之使用LinkExtractor提取链接
一.概述: 在页面含有少量链接时,使用selector来提取信息就可以,但如果链接特别多时,就需要用LinkExtractor来提取. 二.LinkExtractor构造器的各个参数: 1.allow ...
Scrapy 使用 LinkExtractor 提取链接和使用 Exporter 导出数据
在爬取一个网站时,想要爬取的数据通常分布到多个页面中,每个页面包含一部分数据以及其他页面的链接,提取链接有使用 Selector 和使用 Linkextractor 两种方法. 1.使用Selecto ...
scrapy的使用-LinkExtractor
背景: 在爬取网站信息是需要获取特定标签下的某些内容,就需要获取这些标签下的链接,如果获取每一个,在通过这个获取它下面的信息,这样效率会很低,时间复杂度O(n^2),但如果先获取链接,再获取内容,则时 ...
使用Python中的HTMLParser、cookielib抓取和解析网页、从HTML文档中提取链接、图像、文本、Cookies（二）（转）
对搜索引擎.文件索引.文档转换.数据检索.站点备份或迁移等应用程序来说,经常用到对网页(即HTML文件)的解析处理.事实上,通过 Python语言提供的各种模块,我们无需借助Web服务器或者Web浏览 ...
【python】使用HTMLParser、cookielib抓取和解析网页、从HTML文档中提取链接、图像、文本、Cookies
一.从HTML文档中提取链接模块HTMLParser,该模块使我们能够根据HTML文档中的标签来简洁.高效地解析HTML文档. 处理HTML文档的时候,我们常常需要从其中提取出所有的链接.使用HTM ...
在Scrapy中如何利用Xpath选择器从HTML中提取目标信息（两种方式）
前一阵子我们介绍了如何启动Scrapy项目以及关于Scrapy爬虫的一些小技巧介绍,没来得及上车的小伙伴可以戳这些文章: 手把手教你如何新建scrapy爬虫框架的第一个项目(上) 手把手教你如何新建s ...
Python中的HTMLParser、cookielib抓取和解析网页、从HTML文档中提取链接、图像、文本、Cookies（二）
对搜索引擎.文件索引.文档转换.数据检索.站点备份或迁移等应用程序来说,经常用到对网页(即HTML文件)的解析处理.事实上,通过 Python语言提供的各种模块,我们无需借助Web服务器或者Web浏览 ...
Scrapy中的crawlspider
crawlspider 能自动的获取url并提交请求命令:scrapy genspider -t crawl spidername 'example.cn' 所导入的模块 # -*- coding: ...
爬虫07 /scrapy图片爬取、中间件、selenium在scrapy中的应用、CrawlSpider、分布式、增量式
爬虫07 /scrapy图片爬取.中间件.selenium在scrapy中的应用.CrawlSpider.分布式.增量式目录爬虫07 /scrapy图片爬取.中间件.selenium在scrapy ...

随机推荐

Postgraduate
https://account.chsi.com.cn/passport/login?entrytype=yzgr&service=https%3A%2F%2Fyz.chsi.com.cn%2 ...
Windows 获取控制台窗口句柄
详细信息因为多个窗口可能具有相同的标题,您应该更改当前的控制台窗口标题为唯一的标题.这将有助于防止返回不正确的窗口句柄.使用 SetConsoleTitle() 来更改当前的控制台窗口标题.下面是此 ...
在Rancher2中部署Docker-Registry仓库服务
1.docker登陆认证 [root@master ~]# vim /etc/docker/daemon.json { "insecure-registries": [" ...
第九篇：Spring的applicationContext.xml配置总结
在前面的一篇日志中,记录了web.xml配置启动的顺序,web启动到监听器ContextLoaderListener时,开始加载spring的配置文件applicationContext.xml(通常 ...
<随便写>进程基本知识
from multiprocessing import Process, Queue,Pool import time import os def producer(q): for i in rang ...
css 图片波浪效果
参考:https://blog.csdn.net/zhichaosong/article/details/80944924#_99 效果: wave2.png html: <!DOCTYPE h ...
分布式日志收集之Logstash 笔记（一）
(一)logstash是什么? logstash是一种分布式日志收集框架,开发语言是JRuby,当然是为了与Java平台对接,不过与Ruby语法兼容良好,非常简洁强大,经常与ElasticSearch ...
JS规则我或你都可以 (逻辑或操作符）||逻辑或操作符，相当于生活中的“或者”，当两个条件中有任一个条件满足，“逻辑或”的运算结果就为“真”
我或你都可以 (逻辑或操作符) "||"逻辑或操作符,相当于生活中的"或者",当两个条件中有任一个条件满足,"逻辑或"的运算结果就为&quo ...
看《android权威编程指南》的笔记
Android 编译工具确保ant已安装并正常运行,android sdk的tools/和platform-tools目录包含在可执行文件的搜索路径中切换到项目目录并执行以下命令: android ...
CF875E Delivery Club
题意:两个邮递员,一个初始在s1,s2.需要依次给x1,x2,...,xn送快递.求所有时刻中两个邮递员的距离最大值的最小值.n<=100000,xi<=1e9. 标程: #include ...

scrapy中使用LinkExtractor提取链接

描述提取规则

scrapy中使用LinkExtractor提取链接的更多相关文章

随机推荐

热门专题