LxmlLinkExtractor类参数解析

LxmlLinkExtractor

LxmlLinkExtractor 是一种强大的链接提取器，使用他能很方便的进行选项过滤，他是通过xml中强大的HTMLParser实现的

源代码如下：

class LxmlLinkExtractor(FilteringLinkExtractor):

    def __init__(self, allow=(), deny=(), allow_domains=(), deny_domains=(), restrict_xpaths=(),

                 tags=('a', 'area'), attrs=('href',), canonicalize=False,

                 unique=True, process_value=None, deny_extensions=None, restrict_css=(),

                 strip=True):

    tags, attrs = set(arg_to_iter(tags)), set(arg_to_iter(attrs))

        tag_func = lambda x: x in tags

        attr_func = lambda x: x in attrs

        lx = LxmlParserLinkExtractor(

            tag=tag_func,

            attr=attr_func,

            unique=unique,

            process=process_value,

            strip=strip,

            canonicalized=canonicalize

        )

        super(LxmlLinkExtractor, self).__init__(lx, allow=allow, deny=deny,

            allow_domains=allow_domains, deny_domains=deny_domains,

            restrict_xpaths=restrict_xpaths, restrict_css=restrict_css,

            canonicalize=canonicalize, deny_extensions=deny_extensions)

    def extract_links(self, response):

        base_url = get_base_url(response)

        if self.restrict_xpaths:

            docs = [subdoc

                    for x in self.restrict_xpaths

                    for subdoc in response.xpath(x)]

        else:

            docs = [response.selector]

        all_links = []

        for doc in docs:

            links = self._extract_links(doc, response.url, response.encoding, base_url)

            all_links.extend(self._process_links(links))

        return unique_list(all_links)

参数说明：

allow=(一个正则表达式或者正则表达式的列表) 只有与之相匹配的url才能被提取出来
deny=(一个正则表达式或者正则表达式的列表) 一个正则表达式（或正则表达式列表），（绝对）urls必须匹配才能排除（即不提取）。它优先于allow参数。如果没有给出（或为空），它不会排除任何链接。
allow_domains=(str或者list) 允许提取链接的域名的字符串列表或者单个字符串，例如：allow_domain = ['baidu.com']则只能提取baidu.com的域名内的链接
deny_domains=() 与上述的意思刚刚相反
restrict_xpaths=(str或list) - 是一个XPath（或XPath的列表），它定义响应中应从中提取链接的区域。如果给出，只有那些XPath选择的文本将被扫描链接。
targs=('a','area') 标签或在提取链接时要考虑的标签列表。默认为。('a', 'area') 也就是默认只有a标签与area标签的链接才能被提取
attrs=('href',) 在查找要提取的链接时应该考虑的属性或属性列表（仅适用于参数中指定的那些标签tags ）。默认为('href',)
cononicalize=(boolean) 规范化每个提取的url（使用w3lib.url.canonicalize_url）。默认为True。
unique=(boolean) 是否应对提取的链接应用重复过滤。
process_value=(callable) 接收从标签提取的每个值和扫描的属性并且可以修改值并返回新值的函数，或者返回None以完全忽略链接。如果没有给出，那么process_value默认为:lambda x:x

例如，要从此代码中提取链接：

<a href="javascript:goToPage('../other/page.html'); return false">Link text</a>

您可以使用以下功能process_value：

def process_value(value):

    m = re.search("javascript:goToPage\('(.*?)'", value)

    if m:

        return m.group(1)

deny_extensions=(list) -包含在提取链接时应该忽略的扩展的单个值或字符串列表。如果没有给出，它将默认为IGNORED_EXTENSIONS在scrapy.linkextractors包中定义的列表。
restrict_css=() 一个CSS选择器（或选择器列表），用于定义响应中应提取链接的区域。有相同的行为restrict_xpaths。
strip=True 这个是把地址前后多余的空格删除，很有必要

LxmlLinkExtractor类参数解析的更多相关文章

PHP 命令行参数解析工具类
<?php/** * 命令行参数解析工具类 * @author guolinchao * @email luoyecb@163.com */class CommandLine{ // store ...
python命令行参数解析OptionParser类用法实例
python命令行参数解析OptionParser类用法实例本文实例讲述了python命令行参数解析OptionParser类的用法,分享给大家供大家参考. 具体代码如下: from opt ...
写个C#命令行参数解析的小工具
最近测试工作做的比较多因此时常要创建一些控制台类型的应用程序.因为程序有不同的参数开关,需要在程序启动的时候通过命令行来给程序传递各种开关和参数.直接操作args有些不方便,所以就写了个解析参数的小工 ...
Zookeeper + Hadoop2.6 集群HA + spark1.6完整搭建与所有参数解析
废话就不多说了,直接开始啦~ 安装环境变量: 使用linx下的解压软件,解压找到里面的install 或者 ls 运行这个进行安装 yum install gcc yum install gcc-c+ ...
argparse - 命令行选项与参数解析（转）
argparse - 命令行选项与参数解析(译)Mar 30, 2013 原文:argparse – Command line option and argument parsing 译者:young ...
ThreadPoolExecutor参数解析
ThreadPoolExecutor是一个非常重要的类,用来构建带有线程池的任务执行器,通过配置不同的参数来构造具有不同规格线程池的任务执行器. 写在前面的是: 线程池和任务执行器,线程池的定义比较直 ...
控制台程序的参数解析类库 CommandLine
C#控制台程序的参数解析类库 CommandLine简单使用说明前言 C#开发的控制台程序,默认接收string[] args参数.如果有多个参数需要输入时,可以按照顺序依次输入:但如果有些参数不是 ...
SpringMVC源码之参数解析绑定原理
摘要本文从源码层面简单讲解SpringMVC的参数绑定原理 SpringMVC参数绑定相关组件的初始化过程在理解初始化之前,先来认识一个接口 HandlerMethodArgumentResolv ...
springMVC源码分析--RequestParamMethodArgumentResolver参数解析器（三）
之前两篇博客springMVC源码分析--HandlerMethodArgumentResolver参数解析器(一)和springMVC源码解析--HandlerMethodArgumentResol ...

随机推荐

python初识(一)
python语言的发展 python语言诞生于1990年,由Guido van Rossum设计并领导开发. 1989年12月,Guido为打发圣诞节时间而开发的项目. python名字的由来,由于当 ...
Mysql自连接的一些用法
自连接是连接的一种用法,但并不是连接的一种类型,因为他的本质是把一张表当成两张表来使用. mysql有时在信息查询时需要进行对自身连接(自连接),所以我们需要为表定义别名. 我们举例说明,下面是商品采 ...
Angular开发实践（一）：环境准备及框架搭建
引言在工作中引入Angular框架将近一年了,在这一年中不断的踩坑和填坑,当然也学习和积累了很多的知识,包括MVVM框架.前后端分离.前端工程化.SPA优化等等.因此想通过Angular开发实践这系 ...
Filecoin2017年Q4进度更新(完整版)
亲爱的Filecoin支持者.矿工.用户.投资者和广大的社区朋友们, 自从Token销售完成以后,我们便开始集中精力把Filecoin项目从设想变为现实-从实现Filecoin协议的核心代码到打造我们 ...
Mysql5.7动态修改innodb_buffer_pool_size
SELECT @@innodb_buffer_pool_size,@@innodb_buffer_pool_chunk_size,@@innodb_buffer_pool_instances; SET ...
python web开发-flask中日志的使用
Flask使用日志记录的方式: 初始化flask应用实例在flask中使用logger,需要初始化一个flask的应用 app = Flask(__name__) 2. 调用logger 直接调用l ...
C语言最后一次作业--总结报告
1.当初你是如何做出选择计算机专业的决定的? 经过一个学期,你的看法改变了么,为什么? 你觉得计算机是你喜欢的领域吗,它是你擅长的领域吗? 为什么? 当时选择计算机专业,是基于自己的高考分数和想出省的 ...
笔记：Struts2 拦截器
配置拦截器 Struts.xml 配置文件中,使用<interceptor-/>来定义拦截器,有属性 name 表示拦截器的名称,class 表示拦截器的具体首先类,可以使用<par ...
new Image的API
springMVC框架+POI组件导出Excel
目的:访问url(http://localhost:8080/POIOutputExcel/outputexcel.do)实现excel导出,效果图如下: 文件目录(配置文件就不多说了,跟前面的随笔一 ...

LxmlLinkExtractor类参数解析

LxmlLinkExtractor

LxmlLinkExtractor 是一种强大的链接提取器，使用他能很方便的进行选项过滤，他是通过xml中强大的HTMLParser实现的

参数说明：

LxmlLinkExtractor类参数解析的更多相关文章

随机推荐

热门专题