Scrapy解析器xpath

一、使用xpath

不在scrapy框架中通过response

from scrapy.http import HtmlResponse

HtmlResponse->TextResponse->self.selector.xpath(query, **kwargs)->selector(self)->from scrapy.selector import Selector

1、方法一 HtmlResponse(推荐)

from scrapy.http import HtmlResponse

html = """

    html网页

"""

# 注意这个url是任意的，但是必须填写

response = HtmlResponse(url='http://example.com', body=html, encoding='utf-8')

ret = response.xpath('//ul/li[@class="item-0"]/a[@id="i2"]/text()').extract_first()

print(ret)

2、方法二 Selector

from scrapy.http import HtmlResponse

from scrapy.selector import Selector

html = """

    html网页

"""

response = HtmlResponse(url='http://example.com', body=html, encoding='utf-8')

selector = Selector(response)

ret = selector.xpath('//ul/li[@class="item-0"]/a[@id="i2"]/text()').extract_first()

print(ret)

二、选择器

xpath('//a')    # 所有a标签(子孙后代)

xpath('//a[2]')        # 所有a标签，按索引找第二个

xpath('//a[@id]')    # 所有a标签，并且含有id属性

xpath('//a[@id="i1"]')        # 所有a标签，并且属性id='i1'

xpath('//a[@href="link.html"][@id="i1"]')    # 所有a标签，属性href="link.html" 而且 id="i1"

xpath('//a[contains(@href, "link")]')    # 所有a标签，属性href的值包含"link"

xpath('//a[starts-with(@href, "link")]')    # 所有a标签，属性href的值以"link"开头

xpath('//a[re:test(@id, "i\d+")]')        # 所有a标签 属性id的值 符合正则表达式"i\d+"的规则

xpath('//a[re:test(@id, "i\d+")]/text()').extract()        # 所有a标签，取text的值

xpath('//a[re:test(@id, "i\d+")]/@href').extract()        # 所有a标签，取href的属性值

xpath('/html/body/ul/li/a/@href').extract()        # 取所有的值

xpath('//body/ul/li/a/@href').extract_first()    # 取第一个值

Scrapy解析器xpath的更多相关文章

爬虫Scrapy框架-Crawlspider链接提取器与规则解析器
Crawlspider 一:Crawlspider简介 CrawlSpider其实是Spider的一个子类,除了继承到Spider的特性和功能外,还派生除了其自己独有的更加强大的特性和功能.其中最显著 ...
Xpath re bs4 等爬虫解析器的性能比较
xpath re bs4 等爬虫解析器的性能比较本文原始地址:https://sitoi.cn/posts/23470.html 思路测试网站地址:http://baijiahao.baidu.c ...
dom4j解析器基于dom4j的xpath技术简单工厂设计模式分层结构设计思想 SAX解析器 DOM编程
*1 dom4j解析器 1)CRUD的含义:CreateReadUpdateDelete增删查改 2)XML解析器有二类,分别是DOM和SAX(simple Api for xml). ...
JAVA与DOM解析器提高（DOM/SAX/JDOM/DOM4j/XPath）学习笔记二
要求必备知识 JAVA基础知识.XML基础知识. 开发环境 MyEclipse10 资料下载源码下载 sax.dom是两种对xml文档进行解析的方法(没有具体实现,只是接口),所以只有它们是无 ...
scrapy架构与目录介绍、scrapy解析数据、配置相关、全站爬取cnblogs数据、存储数据、爬虫中间件、加代理、加header、集成selenium
今日内容概要 scrapy架构和目录介绍 scrapy解析数据 setting中相关配置全站爬取cnblgos文章存储数据爬虫中间件和下载中间件加代理,加header,集成selenium 内 ...
HTML解析器HtmlAgilityPack的一些使用总结(C#)
哎~本来这些总结是作为使用时的快速备注,但是用不上了.实际应用当中HtmlAgilityPack的可靠性不太稳定,一主要问题是:-> 一些字符会出现乱码或者变成'?',如韩语字符.由于我是已经有 ...
javaweb学习总结十三(dom4j方式对XML文档进行解析以及Xpath的使用)
一:dom4j方式介绍对于xml的解析总共有三种 1:jaxp方式,是sun公司开发的,分为sax方式和dom方式 2:jdom方式,后来其中部分人员参与开发dom4j 3:dom4j方式,是现在企 ...
XML的四种解析器原理及性能比较
转自zsq 1.DOM DOM 是用与平台和语言无关的方式表示 XML 文档的官方 W3C 标准.DOM 是以层次结构组织的节点或信息片断的集合.这个层次结构允许开发人员在树中寻找特定信息.分 ...
Java XML DOM解析（xPath）
(一) XML概念在电子计算机中,标记指计算机所能理解的信息符号,通过此种标记,计算机之间可以处理包含各种的信息比如文章等.它可以用来标记数据.定义数据类型,是一种允许用户对自己的标记语言进行定义的 ...

随机推荐

2018.11.23 浪在ACM 集训队第六次测试赛
2018.11.23 浪在ACM 集训队第六次测试赛整理人:刘文胜 div 2: A: Jam的计数法参考博客:[1] 万众 B:数列参考博客: [1] C:摆花参考博客: [1] D:文化之 ...
字符串和While循环
字符串是以单引号或双引号括起来的任意文本创建字符串 str1 = "shaoge is a good man!" 字符串运算字符串连接 str6 = "shaoge ...
快排java代码
定一个基准位,递归左右两边排序. public void fun(){ int arr[] = {2,3,4,5,6,7,822,3,4,5,8,6,5,4,2,1}; //System.out.pr ...
goasp-onvif实现nvr server问题点滴
参考了:https://blog.csdn.net/saloon_yuan/article/details/24901597,本文以原贴为基础做了一些修改,非常感谢原作者. 1:开发框架搭建 ...
sql临时表与变量表
1)临时表存储在 tempdb 中,当不再使用时会自动删除一般使用如下: --创建临时表 select * into #temp from TABLE --使用临时表 select * from # ...
Android6_大致了解4大组件
一.Activity和View Activity是Android应用中负责与用户交互的组件. View是所有UI控件.容器控件的基类.View组件就是Android应用中用户实实在在看到的部分. Ac ...
ASP.NET MVC API与JS进行POST请求时传递参数 -CHPowerljp原创
在API前添加 [HttpPost] 表示只允许POST方式请求 [HttpPost] public IHttpActionResult Get_BIGDATA([FromBody]Datas ...
字符串format格式方式
1.format后面都是个元组类型!!! 不一一对应则报错,比如少了一个替换的元素,format可以少但是不能多,一多就会报错括号里可以加索引,看例2 可以用索引只取一个值,比如括号里都是{1} r ...
使用easyExcel遇到的坑
最近有个功能,用easyExcel代替poi ,这个确实方便了不少,但是使用easyExcel也踩到了很多坑,在这里记录下easyExcel存在的问题,希望阅读这篇文档的人,可以更好的避免这些. 1. ...
C# list与table的互转
//list转化为table public static DataTable ListToDataTable<T>(List<T> entitys) { //检查实体集合不能为 ...

Scrapy解析器xpath

Scrapy解析器xpath的更多相关文章

随机推荐

热门专题