Scrapy解析器xpath

一、使用xpath

不在scrapy框架中通过response

from scrapy.http import HtmlResponse

HtmlResponse->TextResponse->self.selector.xpath(query, **kwargs)->selector(self)->from scrapy.selector import Selector

1、方法一 HtmlResponse(推荐)

from scrapy.http import HtmlResponse

html = """

    html网页

"""

# 注意这个url是任意的，但是必须填写

response = HtmlResponse(url='http://example.com', body=html, encoding='utf-8')

ret = response.xpath('//ul/li[@class="item-0"]/a[@id="i2"]/text()').extract_first()

print(ret)

2、方法二 Selector

from scrapy.http import HtmlResponse

from scrapy.selector import Selector

html = """

    html网页

"""

response = HtmlResponse(url='http://example.com', body=html, encoding='utf-8')

selector = Selector(response)

ret = selector.xpath('//ul/li[@class="item-0"]/a[@id="i2"]/text()').extract_first()

print(ret)

二、选择器

xpath('//a')    # 所有a标签(子孙后代)

xpath('//a[2]')        # 所有a标签，按索引找第二个

xpath('//a[@id]')    # 所有a标签，并且含有id属性

xpath('//a[@id="i1"]')        # 所有a标签，并且属性id='i1'

xpath('//a[@href="link.html"][@id="i1"]')    # 所有a标签，属性href="link.html" 而且 id="i1"

xpath('//a[contains(@href, "link")]')    # 所有a标签，属性href的值包含"link"

xpath('//a[starts-with(@href, "link")]')    # 所有a标签，属性href的值以"link"开头

xpath('//a[re:test(@id, "i\d+")]')        # 所有a标签 属性id的值 符合正则表达式"i\d+"的规则

xpath('//a[re:test(@id, "i\d+")]/text()').extract()        # 所有a标签，取text的值

xpath('//a[re:test(@id, "i\d+")]/@href').extract()        # 所有a标签，取href的属性值

xpath('/html/body/ul/li/a/@href').extract()        # 取所有的值

xpath('//body/ul/li/a/@href').extract_first()    # 取第一个值

Scrapy解析器xpath的更多相关文章

爬虫Scrapy框架-Crawlspider链接提取器与规则解析器
Crawlspider 一:Crawlspider简介 CrawlSpider其实是Spider的一个子类,除了继承到Spider的特性和功能外,还派生除了其自己独有的更加强大的特性和功能.其中最显著 ...
Xpath re bs4 等爬虫解析器的性能比较
xpath re bs4 等爬虫解析器的性能比较本文原始地址:https://sitoi.cn/posts/23470.html 思路测试网站地址:http://baijiahao.baidu.c ...
dom4j解析器基于dom4j的xpath技术简单工厂设计模式分层结构设计思想 SAX解析器 DOM编程
*1 dom4j解析器 1)CRUD的含义:CreateReadUpdateDelete增删查改 2)XML解析器有二类,分别是DOM和SAX(simple Api for xml). ...
JAVA与DOM解析器提高（DOM/SAX/JDOM/DOM4j/XPath）学习笔记二
要求必备知识 JAVA基础知识.XML基础知识. 开发环境 MyEclipse10 资料下载源码下载 sax.dom是两种对xml文档进行解析的方法(没有具体实现,只是接口),所以只有它们是无 ...
scrapy架构与目录介绍、scrapy解析数据、配置相关、全站爬取cnblogs数据、存储数据、爬虫中间件、加代理、加header、集成selenium
今日内容概要 scrapy架构和目录介绍 scrapy解析数据 setting中相关配置全站爬取cnblgos文章存储数据爬虫中间件和下载中间件加代理,加header,集成selenium 内 ...
HTML解析器HtmlAgilityPack的一些使用总结(C#)
哎~本来这些总结是作为使用时的快速备注,但是用不上了.实际应用当中HtmlAgilityPack的可靠性不太稳定,一主要问题是:-> 一些字符会出现乱码或者变成'?',如韩语字符.由于我是已经有 ...
javaweb学习总结十三(dom4j方式对XML文档进行解析以及Xpath的使用)
一:dom4j方式介绍对于xml的解析总共有三种 1:jaxp方式,是sun公司开发的,分为sax方式和dom方式 2:jdom方式,后来其中部分人员参与开发dom4j 3:dom4j方式,是现在企 ...
XML的四种解析器原理及性能比较
转自zsq 1.DOM DOM 是用与平台和语言无关的方式表示 XML 文档的官方 W3C 标准.DOM 是以层次结构组织的节点或信息片断的集合.这个层次结构允许开发人员在树中寻找特定信息.分 ...
Java XML DOM解析（xPath）
(一) XML概念在电子计算机中,标记指计算机所能理解的信息符号,通过此种标记,计算机之间可以处理包含各种的信息比如文章等.它可以用来标记数据.定义数据类型,是一种允许用户对自己的标记语言进行定义的 ...

随机推荐

H3C DHCP租约更新
POJ 1236 Network of Schools（tarjan）
Network of Schools Description A number of schools are connected to a computer network. Agreements h ...
H3C VLAN显示及维护
linux测试 scullpipe 驱动
我们已经见到了 scullpipe 驱动如何实现阻塞 I/O. 如果你想试一试, 这个驱动的源码可在剩下的本书例子中找到. 阻塞 I/O 的动作可通过打开 2 个窗口见到. 第一个可运行一个命令诸 ...
【15.93%】【codeforces 672D】Robin Hood
time limit per test1 second memory limit per test256 megabytes inputstandard input outputstandard ou ...
【42.49%】【hdu 1542】Atlantis(线段树扫描线简析)
Time Limit: 2000/1000 MS (Java/Others) Memory Limit: 65536/32768 K (Java/Others) Total Submission(s) ...
HDU1172猜数字 [模拟]
1.题意任务是猜一个四位数,每次尝试后会给出这次猜中了几个数字和猜中了几个位置,求能否根据尝试的记录给出答案 2.分析数据给出查询次数和每次查询的数及其有几个数和几个位置符合,值得注意的是,猜对的 ...
centos 下yum lock的解决办法
centos 下yum lock的解决办法 centos7下yum install的时候,报了一堆错误,如下: Another app is currently holding the yum loc ...
记springboot + MP +Hikari动态数据源配置
环境准备: springboot 2.1.6 mybatis-plus 数据库驱动 boot 自带hikari驱动步骤1: 导入多数据源启动工具类 < ...
MySQL基础篇(03)：系统和自定义函数总结，触发器使用详解
本文源码:GitHub·点这里 || GitEE·点这里一.系统封装函数 MySQL 有很多内置的函数,可以快速解决开发中的一些业务需求,大概包括流程控制函数,数值型函数.字符串型函数.日期时间函数 ...

Scrapy解析器xpath

Scrapy解析器xpath的更多相关文章

随机推荐

热门专题