xpath语法分享

# xpath语法：

## 使用方式：

使用//获取整个页面当中的元素，然后写标签名，然后再写谓词进行提取。比如：

```

//div[@class='abc']

```

## 需要注意的知识点：

1. /和//的区别：/代表只获取直接子节点。//获取子孙节点。一般//用得比较多。当然也要视情况而定。

2. contains：有时候某个属性中包含了多个值，那么可以使用`contains`函数。示例代码如下：

    ```

    //div[contains(@class,'job_detail')]

    ```

3. 谓词中的下标是从1开始的，不是从0开始的。

## 使用lxml解析HTML代码：

1. 解析html字符串：使用`lxml.etree.HTML`进行解析。示例代码如下：

    ```python

    htmlElement = etree.HTML(text)

    print(etree.tostring(htmlElement,encoding='utf-8').decode("utf-8"))

    ```

2. 解析html文件：使用`lxml.etree.parse`进行解析。示例代码如下：

    ```python

    htmlElement = etree.parse("tencent.html")

    print(etree.tostring(htmlElement, encoding='utf-8').decode('utf-8'))

    ```

    这个函数默认使用的是`XML`解析器，所以如果碰到一些不规范的`HTML`代码的时候就会解析错误，这时候就要自己创建`HTML`解析器。

    ```python

    parser = etree.HTMLParser(encoding='utf-8')

    htmlElement = etree.parse("lagou.html",parser=parser)

    print(etree.tostring(htmlElement, encoding='utf-8').decode('utf-8'))

    ```

    ## lxml结合xpath注意事项：

    1. 使用`xpath`语法。应该使用`Element.xpath`方法。来执行xpath的选择。示例代码如下：

        ```python

        trs = html.xpath("//tr[position()>1]")

        ```

    `xpath函数`返回来的永远是一个列表。

    2. 获取某个标签的属性：

        ```python

        href = html.xpath("//a/@href")

        # 获取a标签的href属性对应的值

        ```

    3. 获取文本，是通过`xpath`中的`text()`函数。示例代码如下：

        ```python

        address = tr.xpath("./td[4]/text()")[0]

        ```

    4. 在某个标签下，再执行xpath函数，获取这个标签下的子孙元素，那么应该在斜杠之前加一个点，代表是在当前元素下获取。示例代码如下：

        ```python

         address = tr.xpath("./td[4]/text()")[0]

xpath语法分享的更多相关文章

Xpath语法-爬虫(一)
前言这一章节主要讲解Xpath的基础语法,学习如何通过Xpath获取网页中我们想要的内容;为我们的后面学习Java网络爬虫基础准备工作. 备注:此章节为基础核心章节,未来会在网络爬虫的数据解析环节经 ...
Python爬虫利器三之Xpath语法与lxml库的用法
前面我们介绍了 BeautifulSoup 的用法,这个已经是非常强大的库了,不过还有一些比较流行的解析库,例如 lxml,使用的是 Xpath 语法,同样是效率比较高的解析方法.如果大家对 Beau ...
XPath语法在C#中使用XPath示例【转http://www.cnblogs.com/yukaizhao/archive/2011/07/25/xpath.html】非常详细的文章
XPath语法在C#中使用XPath示例 XPath可以快速定位到Xml中的节点或者属性.XPath语法很简单,但是强大够用,它也是使用xslt的基础知识. 示例Xml: <?xml ve ...
XPath语法在C#中使用XPath示例
XPath可以快速定位到Xml中的节点或者属性.XPath语法很简单,但是强大够用,它也是使用xslt的基础知识. 示例Xml: <?xml version="1.0" en ...
Dom4j使用Xpath语法读取xml节点
我们可以使用Xpath的语法来轻易的读取xml的某个节点[类似于jQuery的选择器]: 使用Xpath语法需要添加新的jaxen-1.1-beta-7.rar 这个jar包 dom4j完整jar包我 ...
XDocument读取xml的所有元素以及XPath语法
原文 http://www.cnblogs.com/xxyishutong/p/3326375.html <?xml version="1.0" encoding=&quo ...
C#操作Xml：XPath语法在C#中使用XPath示例
XPath可以快速定位到Xml中的节点或者属性.XPath语法很简单,但是强大够用,它也是使用xslt的基础知识. 示例Xml: ? 1 2 3 4 5 6 7 8 9 10 11 12 13 14 ...
Xpath语法学习
贴几个我学习Xpath的参考 1 基本使用的参考 XPath学习:基本语法(一) 2 较为详细且清晰例子参考,推荐 XPath 详解,总结 3 详细语法参考 Xpath语法格式整理 4 官方参考 XP ...
芝麻HTTP：Python爬虫利器之Xpath语法与lxml库的用法
安装 pip install lxml 利用 pip 安装即可 XPath语法 XPath 是一门在 XML 文档中查找信息的语言.XPath 可用来在 XML 文档中对元素和属性进行遍历.XPat ...

随机推荐

F-maximum clique 1_2019牛客暑期多校训练营（第五场）
题意给出n个不同的数字\(a_i\),求出最大的子集,使得子集内任意两个数在二进制下至少有两位不同. 题解先对任意两个二进制位只有一个不同的两个数连边,那么问题就转化成找出最多的点集,任意两点没有 ...
【百度之星】【思维】hdu 6724Totori's Switching Game
思维题,最后只要判断每个点的度数>=k即可. #pragma comment(linker, "/STACK:1024000000,1024000000") #pragma ...
“玲珑杯”ACM比赛 Round #18 1147 - 最后你还是AK了（思维，边的贡献）
题目链接:http://www.ifrog.cc/acm/problem/1147 题解:这题很容易想到的是边的贡献也就是每条边最多被取到几次,和点的贡献类似,那些加边只要加在边贡献大的边上就行.然后 ...
模板汇总——KMP & EX-KMP
1. kmp 相当于往前求出一段字符信息,使得这段字符信息和前缀相等. void getnext(){ , j = ; nx[] = -; while(j < m){ || b[j] == b ...
美团2018年CodeM大赛-资格赛分数暴力模拟
链接:https://www.nowcoder.com/acm/contest/138/D来源:牛客网小胖参加了人生中最重要的比赛——MedoC资格赛.MedoC的资格赛由m轮构成,使用常见的“加权 ...
Docker详解（一）
目录 Docker简介 Docker组成永远的HelloWorld 序言:众所周知,近几年的互联网各项技术发展的如火如荼,敏捷开发模式越来越普及,"快"似乎成为了行业的标准,于是 ...
JS-特效～ 05. 缓动框架兼容封装／回掉函数／兼容透明度／层级、旋转轮播图、正则表达式、验证表单注册账号、
缓动函数中opcity 写百分值的值 JS一般不用小数运算,会照成精度丢失元素的默*认透明度是层级一次性赋值,不缓动利用for…in为同一个父元素的子元素绑定属性缓动框架兼容封装/回掉函数/ ...
实时统计每天pv,uv的sparkStreaming结合redis结果存入mysql供前端展示
最近有个需求,实时统计pv,uv,结果按照date,hour,pv,uv来展示,按天统计,第二天重新统计,当然了实际还需要按照类型字段分类统计pv,uv,比如按照date,hour,pv,uv,typ ...
FreeSql （九）删除数据
删除是一个非常危险的操作,FreeSql对删除支持并不强大,仅支持了单表有条件的删除方法. 不想过多的介绍拉长删除数据的系列文章,删除数据的介绍仅此一篇. 若Where条件为空的时候执行方法,Free ...
「小技巧」使用Git从其他分支merge个别文件
小明发现在实际项目开发过程中,总会遇到各种各样的情况,比如一个大型的项目或版本迭代可能不是一次上线,可能会分好几次上线,这时候就会涉及创建多个分支,分别开发. 项目背景产品经理:我们本次开发三个功能 ...

xpath语法分享

xpath语法分享的更多相关文章

随机推荐

热门专题