xpath教程一---简单的标签搜索

工具

Python3版本
lxml库【优点是解析快】
HTML代码块【从网络中获取或者自己杜撰一个】
requests【推荐安装，从网页上获取网页代码练手，再好不过了】

讲解

网页代码都是成对的标签，基础结构如下

<!DOCTYPE html>

<html lang="en">

<head>

    <!--网页头部信息-->

    <title>网页名</title>

</head>

<body>

    <!--下面是网页正文-->

    <div>

        div-text

    </div>

</body>

</html>

最外部肯定是html，所有的html代码基本都是放这里面
html内部分两块，一块是头head，另一块是身体body
head部主要是放网页名、一些申明、和SEO优化的东西
body部分就是浏览器显示的内容

网页结构基本都是如此，一般有价值的数据都是在body中

现在开始学习Xpath

第一步：杜撰一个HTML代码块

html_str = """

<!DOCTYPE html>

<html lang="en">

<head>

    <meta charset="UTF-8">

    <title>网页名</title>

</head>

<body>

    <div>

        div-text

        <span>span-text</span>

        <a>a-text</a>

        <p>p-text</p>

    </div>

    <table>

        <tr>

            <th>Heading</th>

            <th>Another Heading</th>

        </tr>

        <tr>

            <td>row 1, cell 1</td>

            <td>row 1, cell 2</td>

        </tr>

        table-text-2

    </table>

</body>

</html>

"""

第二步：检测Python和lxml库

from lxml import etree

html = etree.HTML(html_str)

这段代码是从lxml中导入etree，然后将前面杜撰的一个html_str字符串通过etree.HTML函数，解析成支持xpath的数据类型，并保存到html变量中

两段代码链接起来，成功运行，那就说明lxml库正常

下面就到了写 xpath 路径的时候了

任务一：解析出head里面的title标签的值【即 ‘网页名’】
- 获取网页名的值，是使用title/text()来获得，
- 而title标签是head的子级
- head标签就是最外部的标签
- 所以整个的xpath路径是head/title/text()
- 最后的python代码就是print(html.xpath('head/title/text()'))。这样就打印出了一个列表['网页名']
任务二：解析出div标签下span、a、p标签里面的值
- span标签值对应的xpath路径是body/div/span/text()，结果['span-text']
- a标签值对应的xpath路径是body/div/a/text()，结果['a-text']
- p标签值对应的xpath路径是body/div/p/text()，结果['p-text']
任务三：试着解析div标签的text()
- 就任务而言，任务三比任务二还轻松点，能获取div的子级标签值，获取父级也挺简单
- div对应的xpath路径是body/div/text()
- 得到的结果是这样的['\n div-text\n ', '\n ', '\n ', '\n ']
- 这里必须对结果好好解释下。首先是div里面有三个子级标签，这三个都不算做text()。如果没有子级，得到的结果列表就是一个元素；有两个子级，则列表有三元素；就像一根面条被切了两次，就有三根面条出现。【不是对着切(ˉ▽￣～) ~~】
- 另外 /n是换行
任务四：解析th和td的文本值
- 这次th和td都有两个标签，首先按前面的方式来写路径
- 通过body，再到table，然后是tr，再是th和td
- 最终的xpath是body/table/tr/th/text()和body/table/tr/td/text()
- 运行结果['Heading', 'Another Heading']，['row 1, cell 1', 'row 1, cell 2']

最终的代码和运行截图

html_str = """

<!DOCTYPE html>

<html lang="en">

<head>

    <meta charset="UTF-8">

    <title>网页名</title>

</head>

<body>

    <div>

        div-text

        <span>span-text</span>

        <a>a-text</a>

        <p>p-text</p>

    </div>

    <table class="2">

        <tr>

            <th>Heading</th>

            <th>Another Heading</th>

        </tr>

        <tr>

            <td>row 1, cell 1</td>

            <td>row 1, cell 2</td>

        </tr>

        table-text-2

    </table>

</body>

</html>

"""

from lxml import etree

html = etree.HTML(html_str)

print(html.xpath('head/title/text()'))

print(html.xpath('body/div/span/text()'))

print(html.xpath('body/div/a/text()'))

print(html.xpath('body/div/p/text()'))

print(html.xpath('body/div/text()'))

print(html.xpath('body/table/tr/th/text()'))

print(html.xpath('body/table/tr/td/text()'))

xpath教程一---简单的标签搜索的更多相关文章

ASP.NET Core Razor 标签助手 - ASP.NET Core 基础教程 - 简单教程，简单编程
原文:ASP.NET Core Razor 标签助手 - ASP.NET Core 基础教程 - 简单教程,简单编程 ASP.NET Core Razor 标签助手上一章节我们介绍了视图导入,学习了 ...
xpath教程二 ---- 通过ID和Class检索
必备知识点在html中,id是唯一的在html中,class是可以多处引用的工具 Python3版本 lxml库[优点是解析快] HTML代码块[从网络中获取或者自己杜撰一个] requests ...
python--selenium简单模拟百度搜索点击器
python--selenium简单模拟百度搜索点击器发布时间:2018-02-28 来源:网络上传者:用户关键字: selenium 模拟简单点击搜索百度发表文章摘要:用途:简单模拟 ...
xpath教程 2 - lxml库
xpath教程 2 - lxml库这些就是XPath的语法内容,在运用到Python抓取时要先转换为xml. lxml库 lxml 是一个HTML/XML的解析器,主要的功能是如何解析和提取 HT ...
xpath教程三---逐层检索和全局检索
本节主要介绍用xpath来描述html的层级关系主要使用到的知识点如下: 单独的一个点 .,表示当前位置两个点 ..,表示上一级父标签的位置单独的一个斜杠 /,表示只检索下面一级单独的两个斜杠 ...
Playmaker全面实践教程之简单的使用Playmaker示例
Playmaker全面实践教程之简单的使用Playmaker示例简单的使用Playmaker示例通过本章前面部分的学习,相信读者已经对Playmaker有了一个整体的认识和印象了.在本章的最后,我 ...
xpath教程 3 - xpath的小结
一.xpath提取内容 1.提取节点中最表层的文本 htmlobj.xpath("./text()") 在scrapy中用extract()[0]方法抽取文本.如: temp['t ...
雷林鹏分享：Ruby XML, XSLT 和 XPath 教程
Ruby XML, XSLT 和 XPath 教程什么是 XML ? XML 指可扩展标记语言(eXtensible Markup Language). 可扩展标记语言,标准通用标记语言的子集,一种 ...
ASP.NET Core 新增用户 - ASP.NET Core 基础教程 - 简单教程，简单编程
原文:ASP.NET Core 新增用户 - ASP.NET Core 基础教程 - 简单教程,简单编程 ASP.NET Core 新增用户上一章节我们实现了一个注册表单,但也留了一些东西还没完成, ...

随机推荐

大数据学习--day07(冒泡排序、Arrays工具类、方法可变参数)
冒泡排序.Arrays工具类.方法可变参数冒泡排序之前写过,略 Arrays工具类二分法查询 public static int binarySearch(int[] a,int key) 头信息 ...
运用busybox构建最小根文件系统
平台:vmware下ubuntu14.04前期准备:安装交叉编译环境arm-linux-gcc-4.5.1;下载完成BusyBox 1.23.2一.busybox构建1.make menuconfig ...
...续上文（一个小萌新的C语言之旅）
我们继续上次没介绍完的继续讲: 下面我们说一下二进制,二进制是计算技术中广泛采用的一种数制. 二进制数据是用0和1两个数码来表示的数.它的基数为2,进位规则是“逢二进一”.那么二进制怎么转化为十进 ...
LeetCode初级算法的Python实现--字符串
LeetCode初级算法的Python实现--字符串 # 反转字符串 def reverseString(s): return s[::-1] # 颠倒数字 def reverse(x): if x ...
mybatis入门(三):mybatis的基础特性
mybatis的知识点: 1.mybatis和hibernate本质区别和应用场景 hibernate:是一个标准的ORM框架(Ojbect relation mapper对象关系映射).入门门槛较高 ...
成都Uber优步司机奖励政策（3月12日）
滴快车单单2.5倍,注册地址:http://www.udache.com/ 如何注册Uber司机(全国版最新最详细注册流程)/月入2万/不用抢单:http://www.cnblogs.com/mfry ...
成都Uber优步司机奖励政策（1月19日）
滴快车单单2.5倍,注册地址:http://www.udache.com/ 如何注册Uber司机(全国版最新最详细注册流程)/月入2万/不用抢单:http://www.cnblogs.com/mfry ...
两分钟了解Docker的优势
本文来自网易云社区我们主要从Docker对业务架构和生产实践的角度来分析. 随着业务规模的逐渐扩大,产品复杂度也随着增加,企业需要解决快速迭代.高可靠和高可用等问题,一个自然的选择是服务化的拆分,把 ...
How To Install Apache Tomcat 7 on CentOS 7 via Yum
摘自:https://www.digitalocean.com/community/tutorials/how-to-install-apache-tomcat-7-on-centos-7-via-y ...
使用redux-actions优化actions管理
redux-actions的api很少,有三个createAction(s) handleASction(s) combineActions 主要用到createAction去统一管理actio ...

xpath教程一---简单的标签搜索

工具

讲解

现在开始学习Xpath

下面就到了写 xpath 路径的时候了

最终的代码和运行截图

xpath教程一---简单的标签搜索的更多相关文章

随机推荐

热门专题