xpath如何取包含多个class属性

如果HTML结构是这样

<div class="demo"></div>

那么我知道可以写xpath //div[@class="demo"]
但是如果我的html是

<div class="test demo"></div>

<div class="demo test"></div>

<div class="test demo2"></div>

我只想选出有demo这个class的对象，那应该怎么弄

要取多个class属性值的元素，应该如何办呢；

如：

<div class='a b'>test</div>

如果是用xpath('//div[@class="a"]') 会取不到这里面的值；

可以用如下的表达式：

xpath('//div[contains(@class,"a")]')
它会取得所有class为a的元素

或者

xpath('//div[contains(@class,"a") and contains(@class,"b")]')
它会取class同时有a和b的元素

and改为or，就是选择class=a或者class=b的元素

如果没记错的话可以这么来：

//div[contains(@class, 'demo')]

如果是多个则可以：

//div[contains(@class, 'demo') and contains(@class, 'other')]

如果目标 class 不一定是第一个，那么：

//div[contains(concat(' ', @class, ' '), 'demo')]

原文链接
著作权归作者所有。商业转载请联系作者获得授权，非商业转载请注明出处。

xpath获取当前标签下的所有文本(包括子标签)

使用内建函数string

string(//div[@class="art_content"])

//获取"art_content"div下的所有内容

爬虫笔记之xpath的更多相关文章

Java网络爬虫笔记
Java网络爬虫笔记 HttpClient来代替浏览器发起请求. select找到的是元素,也就是elements,你想要获取具体某一个属性的值,还是要用attr("")方法.标签 ...
[Python爬虫笔记][随意找个博客入门(一)]
[Python爬虫笔记][随意找个博客入门(一)] 标签(空格分隔): Python 爬虫 2016年暑假来源博客:挣脱不足与蒙昧 1.简单的爬取特定url的html代码 import urllib ...
nodejs爬虫笔记(三)---爬取YouTube网站上的视频信息
思路:通过笔记(二)中代理的设置,已经可以对YouTube的信息进行爬取了,这几天想着爬取网站下的视频信息.通过分析YouTube,发现可以从订阅号入手,先选择几个订阅号,然后爬取订阅号里面的视频分类 ...
nodejs爬虫笔记(二)---代理设置
node爬虫代理设置最近想爬取YouTube上面的视频信息,利用nodejs爬虫笔记(一)的方法,代码和错误如下 var request = require('request'); var chee ...
Python网络爬虫笔记（五）：下载、分析京东P20销售数据
(一) 分析网页下载下面这个链接的销售数据 https://item.jd.com/6733026.html#comment 1. 翻页的时候,谷歌F12的Network页签可以看到下面 ...
爬虫笔记之自如房屋价格图片识别（价格字段css背景图片偏移显示）
一.前言自如房屋详情页的价格字段用图片显示,特此破解一下以丰富一下爬虫笔记系列博文集. 二.分析 & 实现先打开一个房屋详情页观察一下: 网页的源代码中没有直接显示价格字段,价格的显示是使 ...
Scrapy:学习笔记(1)——XPath
Scrapy:学习笔记(1)——XPath 1.快速开始 XPath是一种可以快速在HTML文档中选择并抽取元素.属性和文本的方法. 在Chrome,打开开发者工具,可以使用$x工具函数来使用XPat ...
爬虫系列(九) xpath的基本使用
一.xpath 简介究竟什么是 xpath 呢?简单来说,xpath 就是一种在 XML 文档中查找信息的语言而 XML 文档就是由一系列节点构成的树,例如,下面是一份简单的 XML 文档: &l ...
从0开始学爬虫3之xpath的介绍和使用
从0开始学爬虫3之xpath的介绍和使用 Xpath:一种HTML和XML的查询语言,它能在XML和HTML的树状结构中寻找节点安装xpath: pip install lxml HTML 超文本标 ...
Python爬虫笔记一（来自MOOC） Requests库入门
Python爬虫笔记一(来自MOOC) 提示:本文是我在中国大学MOOC里面自学以及敲的一部分代码,纯一个记录文,如果刚好有人也是看的这个课,方便搬运在自己电脑上运行. 课程为:北京理工大学-嵩天-P ...

随机推荐

service服务使用CoreDNS提供的域名地址访问
普通的 Service:会生成 servicename.namespace.svc.cluster.local 的域名,会解析到 Service 对应的 ClusterIP 上,在 Pod 之间的调用 ...
查找Linux下的大目录或文件
目录 du -h --max-depth=1 du -h --max-depth=2 | sort -n du -hm --max-depth=2 | sort -n du -hm --max-dep ...
2_Git
一. 引言在单人开发过程中, 需要进行版本管理, 以利于开发进度的控制在多人开发过程中, 不仅需要版本管理, 还需要进行多人协同控制二. 介绍 Git是一个开源的分布式版本控制系统, 用于敏捷高 ...
PAT (Basic Level) Practice 1030 完美数列分数 25
给定一个正整数数列,和正整数 p,设这个数列中的最大值是 M,最小值是 m,如果 M≤mp,则称这个数列是完美数列. 现在给定参数 p 和一些正整数,请你从中选择尽可能多的数构成一个完美数列. 输入格 ...
PAT (Basic Level) Practice 1010 一元多项式求导分数 25
设计函数求一元多项式的导数.(注:xn(n为整数)的一阶导数为nxn−1.) 输入格式: 以指数递降方式输入多项式非零项系数和指数(绝对值均为不超过 1000 的整数).数字间以空格分隔. 输出格式: ...
linux开放端口并测试
开放端口操作开放端口先开启防火墙(才能用开启端口的命令) systemctl start firewalld.service 开放端口 firewall-cmd --zone=public --a ...
（数据科学学习手札144）使用管道操作符高效书写Python代码
本文示例代码已上传至我的Github仓库https://github.com/CNFeffery/DataScienceStudyNotes 1 简介大家好我是费老师,一些比较熟悉pandas的读者 ...
SpringBoot 2.5.5整合轻量级的分布式日志标记追踪神器TLog
TLog能解决什么痛点随着微服务盛行,很多公司都把系统按照业务边界拆成了很多微服务,在排错查日志的时候.因为业务链路贯穿着很多微服务节点,导致定位某个请求的日志以及上下游业务的日志会变得有些困难. ...
win10桌面右键卡顿卡死解决方法
win+R,打开命令行输入services.msc 找到NADIA Display Container LS,将其由自动改为禁用,解决问题. PS:网上有些改注册表的方法,确实可以治标,但是大家都应 ...
C#中ref和out关键字的应用以及区别（参数修饰符）
ref ref的定义 ref是reference的缩写,通过引用来传递参数的地址,ref基本上是服务于值类型的 ref的使用 //不使用 ref; void Method(int myRefInt) ...

爬虫笔记之xpath

目录

xpath如何取包含多个class属性

xpath获取当前标签下的所有文本(包括子标签)

爬虫笔记之xpath的更多相关文章

随机推荐

热门专题