scrapy xpath中提取多个class值

焦国峰的随笔日记 2024-10-31 18:52:54 原文

xpath中没有提供对class的原生查找方法。但是 stackoverflow 看到了一个很有才的回答：

This selector should work but will be more efficient if you replace it with your suited markup:
这个表达式应该是可行的。不过如果你把class换成更好识别的标识执行效率会更高

//*[contains(@class, 'Test')]

But since this will also match cases like class="Testvalue" or class="newTest".

但是这个表达式会把类似 class="Testvalue" 或者 class="newTest"也匹配出来。

//*[contains(concat(' ', @class, ' '), ' Test ')]

If you wished to be really certain that it will match correctly, you could also use the normalize-space function to clean up stray whitespace characters around the class name (as mentioned by @Terry)

如果您希望确定它能够正确匹配，则还可以使用 normalize-space 函数清除类名周围的空白字符（如@Terry所述）

//*[contains(concat(' ', normalize-space(@class), ' '), ' Test ')]

Note that in all these versions, the * should best be replaced by whatever element name you actually wish to match, unless you wish to search each and every element in the document for the given condition.

请注意在所有这些版本里，除非你想要在所有元素里搜索带有这些条件的元素，否则你最好把*号替换成你想要匹配的具体的元素名(标签名)。

具体来讲大概就是这样：

html = """

<div class="view_fields">

    <div class="row view_row">

        <!-- row header -->

        <div class="view_field col-xs-4 col-sm-5 col-md-4">Organization

        </div>

        <!-- row value -->

          <div class="view_value col-xs-8 col-sm-7 col-md-8">

            <a href="/org/14607">INTERNET HARBOR</a>

          </div>

    </div>

</div>

"""

items = response.xpath('//div[contains(@class,"view_fields")]')

相反：不包含指定的属性或值

如果查找某个属性值是否包含或不包含指定的属性或值时：结合Xpath路径来提取循环列表中的一个HTML标签的InnerText，提取的时候需要判断是这个标签的class属性是否包含某个指定的属性值，利用Xpath的contains可以解决，代码如下：

//选择不包含class属性的节点

var result = node.SelectNodes(".//span[not(@class)]");

//选择不包含class和id属性的节点

var result = node.SelectNodes(".//span[not(@class) and not(@id)]");

//选择不包含class="expire"的span

var result = node.SelectNodes(".//span[not(contains(@class,'expire'))]");

//选择包含class="expire"的span

var result = node.SelectNodes(".//span[contains(@class,'expire')]");

查询值为空的节点

xml.xpath("//[XX[.!='']]")

--------------------------------------//td[.!= '']----------------------------------------------------------------

if each.xpath("./td[2]/text()[.!= '']"):    

    self.positionType = each.xpath("./td[2]/text()").extract()[0]

else:

    self.positionType = "未知"

博客搬运地址

scrapy xpath中提取多个class值的更多相关文章

用泛型方法Java从实体中提取属性值，以及在泛型方法中的使用
public <T> T getFieldValue(Object target, String fieldName, Class<T> typeName) { try { O ...
在Scrapy中如何利用Xpath选择器从HTML中提取目标信息（两种方式）
前一阵子我们介绍了如何启动Scrapy项目以及关于Scrapy爬虫的一些小技巧介绍,没来得及上车的小伙伴可以戳这些文章: 手把手教你如何新建scrapy爬虫框架的第一个项目(上) 手把手教你如何新建s ...
Jmeter_Beanshell 返回值中提取参数值
Jmeter_Beanshell 返回值中提取参数值[准备环境]: ①Jmeter版本:5.1,JDK:1.8 ②前置条件:将json.jar包置于..\apache-jmeter-5.1\lib\ ...
返回数据中提取数据的方法（JSON数据取其中某一个值的方法）
返回数据中提取数据的方法比如下面的案例是,取店铺名称接口返回数据如下: {"Code":0,"Msg":"ok","Data& ...
postman工具中如何提取接口的返回值
提取接口返回值当返回值是返回JSON时 1.let json = JSON.parse(responseBody); // responseBody是包含整个返回内容的字符串提取某字段的值: ...
scrapy框架Selector提取数据
从页面中提取数据的核心技术是HTTP文本解析,在python中常用的模块处理: BeautifulSoup 非常流行的解析库,API简单,但解析的速度慢. lxml 是一套使用c语言编写的xml解析 ...
Scrapy框架中的CrawlSpider
小思考:如果想要通过爬虫程序去爬取”糗百“全站数据新闻数据的话,有几种实现方法? 方法一:基于Scrapy框架中的Spider的递归爬取进行实现(Request模块递归回调parse方法). 方法二: ...
Scrapy框架中选择器的用法【转】
Python爬虫从入门到放弃(十四)之 Scrapy框架中选择器的用法请给作者点赞 --> 原文链接 Scrapy提取数据有自己的一套机制,被称作选择器(selectors),通过特定的Xpa ...
scrapy框架中选择器的用法
scrapy框架中选择器的用法 Scrapy提取数据有自己的一套机制,被称作选择器(selectors),通过特定的Xpath或者CSS表达式来选择HTML文件的某个部分Xpath是专门在XML文件中 ...

随机推荐

51nod 1118 机器人走方格【dp】
M * N的方格,一个机器人从左上走到右下,只能向右或向下走.有多少种不同的走法?由于方法数量可能很大,只需要输出Mod 10^9 + 7的结果. 收起输入第1行,2个数M,N,中间用空格隔开.( ...
linux网络编程——域名转换 gethostbyname与gethostbyaddr
域名转换 #include <netdb.h> struct hostent *gethostbyname(const char *name); 参数: name: 执行主机名的指针返回 ...
linux strings-在对象文件或二进制文件中查找可打印的字符串
推荐:更多Linux 文件查找和比较命令关注:linux命令大全 strings命令在对象文件或二进制文件中查找可打印的字符串.字符串是4个或更多可打印字符的任意序列,以换行符或空字符结束. str ...
Android写入到mysql里的中文总是乱码？
中文编码的问题总是让人头疼,之前在python爬虫就折腾得死去活来,现在写app又是这样. 总结下来,就是三点吧: 数据库: 确定字符编码是utf8, collate: utf8_general_ci ...
react入门----基础语法
<!DOCTYPE html> <html lang="en"> <head> <meta charset="UTF-8&quo ...
nagios添加check_logfiles监控注意事项
为被监控机器添加日志监控,需注意: 1.确认被监控机器/usr/local/nagios/libexec下是否已存在check_logfiles插件,如没有,需要copy进来: 2.确认被监控机器/u ...
Docker学习总结（17）——学会使用Dockerfile
Docker.Dockerfile.Docker镜像.容器这些都是什么鸟? 老生常谈,再再再--普及一下: Docker: 最早是dotCloud公司出品的一套容器管理工具,但后来Docker慢慢火起 ...
nyoj 95 众数问题（set）
众数问题时间限制:3000 ms | 内存限制:65535 KB 难度:3 描述所谓众数,就是对于给定的含有N个元素的多重集合,每个元素在S中出现次数最多的成为该元素的重数, 多重集合S重 ...
总结懒加载的解决方法(全)org.hibernate.LazyInitializationException: could not initialize proxy - no Session
如下错误:org.hibernate.LazyInitializationException: could not initialize proxy - no Session 原因是懒加载的问题,因为 ...
MyBatis3-以接口方式编程
以下内容引用自http://www.yihaomen.com/article/java/304.htm,不过内容有修改: 继前一篇文章http://www.cnblogs.com/EasonJim/p ...