W3School官方文档：http://www.w3school.com.cn/xpath/index.asp

我们使用xpath主要是获取网页数据的，之前一直是使用bs4，xpath也是最近了解到的，找了很多资料，感觉写的都不是很明白，这里我就把我的理解写一下。

首先，lxml是一款高性能的 Python HTML/XML 解析器，我们可以利用XPath，来快速的定位特定元素以及获取节点信息，效率也要别bs4（关于bs4我有一篇beautifulshou的博客可以参考一下）高些。

使用这个就是快速的将html中我们需要的数据找出来。

在使用之前我们需要安装lxml解析器

pip install lxml

安装了之后，我们要对需要获取数据的网页数据进行解析

网页数据的解析

解析分为两种方式

解析html字符串

使用“lxml.etree.HTML( )”进行解析。etree.tostring( )方法可以将htmlelement元素转化成字符串，可以正常打印出来。示例代码如下：

from lxml import etree

html = '''

<html>

　　<head>

　　　　<meta name="content-type" content="text/html; charset=utf-8" />

　　　　<title>友情链接查询 - 站长工具</title>

　　　　<!-- uRj0Ak8VLEPhjWhg3m9z4EjXJwc -->

　　　　<meta name="Keywords" content="友情链接查询" />

　　　　<meta name="Description" content="友情链接查询" />

　　</head>

　　<body>

　　　　<h1 class="heading">Top News</h1>

　　　　<p style="font-size: 200%">World News only on this page</p>

　　　　Ah, and here's some more text, by the way.

　　　　<p>... and this is a parsed fragment ...</p>

　　　　<a href="http://www.cydf.org.cn/" rel="nofollow" target="_blank">青少年发展基金会</a>

　　　　<a href="http://www.4399.com/flash/32979.htm" target="_blank">洛克王国</a>

　　　　<a href="http://www.4399.com/flash/35538.htm" target="_blank">奥拉星</a>

　　　　<a href="http://game.3533.com/game/" target="_blank">手机游戏</a>

　　　　<a href="http://game.3533.com/tupian/" target="_blank">手机壁纸</a>

　　　　<a href="http://www.4399.com/" target="_blank">4399小游戏</a>

　　　　<a href="http://www.91wan.com/" target="_blank">91wan游戏</a>

　　</body>

</html>

'''

html_element = etree.HTML(html)

print(etree.tostring(html_element, encoding='utf-8').decode('utf-8'))

解析html文件

使用“lxml.etree.parse( )”进行解析，该方法默认使用的是“XML”解析器。

from lxml import etree

html_element = etree.parse('./demo.html')

print(etree.tostring(html_element, encoding='utf-8').decode('utf-8'))

如果碰到不规范的html文件时就会解析错误，报错代码如下：

这个时候就要自己创建html解析器，增加参数‘parser'，示例如下

from lxml import etree

parser = etree.HTMLParser(encoding="utf-8")

html_element = etree.parse('./demo.html', parser=parser)

print(etree.tostring(html_element, encoding='utf-8').decode('utf-8'))

数据提取

在上面完成了数据的解析，下面就要开始主要的内容取数据了。再开始之前，给大家推荐一个Chrome的一个插件：XPath Helper，可以到谷歌商城中下载。这个在分析阶段能够很方便地去查找。

下面列一下最常使用的

例子：

查找指定节点

注意点: 在xpath中，第一个元素的位置是1，最后一个元素的位置是last(),倒数第二个是last()-1

选取未知节点

XPath 通配符可用来选取未知的 XML 元素。

例如

选取若干条路径

xpath模块的更多相关文章

python 全栈开发，Day135(爬虫系列之第2章-BS和Xpath模块)
一.BeautifulSoup 1. 简介简单来说,Beautiful Soup是python的一个库,最主要的功能是从网页抓取数据.官方解释如下: ''' Beautiful Soup提供一些简单 ...
xpath模块使用
xpath模块使用一.什么是xml(百度百科解释如下) 可扩展标记语言,标准通用标记语言的子集,简称XML.是一种用于标记电子文件使其具有结构性的标记语言. 在电子计算机中,标记指计算机所能理解的信 ...
Python网络爬虫-xpath模块
一.正解解析单字符: . : 除换行以外所有字符 [] :[aoe] [a-w] 匹配集合中任意一个字符 \d :数字 [0-9] \D : 非数字 \w :数字.字母.下划线.中文 \W : 非\ ...
python 全栈开发，Day134(爬虫系列之第1章-requests模块)
一.爬虫系列之第1章-requests模块爬虫简介概述近年来,随着网络应用的逐渐扩展和深入,如何高效的获取网上数据成为了无数公司和个人的追求,在大数据时代,谁掌握了更多的数据,谁就可以获得更高的 ...
python中BeautifulSoup模块
BeautifulSoup模块是干嘛的? 答:通过html标签去快速匹配标签中的内容.效率相对比正则会好的多.效率跟xpath模块应该差不多. 一:解析器: BeautifulSoup(html,&q ...
从0开始学爬虫3之xpath的介绍和使用
从0开始学爬虫3之xpath的介绍和使用 Xpath:一种HTML和XML的查询语言,它能在XML和HTML的树状结构中寻找节点安装xpath: pip install lxml HTML 超文本标 ...
《Python 数据科学实践指南》读书笔记
文章提纲全书总评 C01.Python 介绍 Python 版本 Python 解释器 Python 之禅 C02.Python 基础知识基础知识流程控制: 函数及异常函数: 异常字符串获 ...
爬虫-requests
一.爬虫系列之第1章-requests模块爬虫简介概述近年来,随着网络应用的逐渐扩展和深入,如何高效的获取网上数据成为了无数公司和个人的追求,在大数据时代,谁掌握了更多的数据,谁就可以获得更高的 ...
javascript中DOM0,DOM2,DOM3级事件模型解析
DOM 即文档对象模型. 文档对象模型是一种与编程语言及平台无关的API(Application programming Interface),借助于它,程序能够动态地访问和修改文档内容.结构或显示 ...

随机推荐

Mybatis学习笔记4 - 获取自增主键的值
获取自增主键的值:mysql支持自增主键,自增主键值的获取,mybatis也是利用statement.getGenreatedKeys():useGeneratedKeys="true&qu ...
Approximate timing for various operations on a typical PC
execute typical instruction 1/1,000,000,000 sec = 1 nanosec fetch from L1 cache memory 0.5 nanosec b ...
cout和printf不能混用
1.两者的缓存机制不同:printf无缓冲区,而std::cout有 (其实printf也是有缓冲区的,https://blog.csdn.net/ithzhang/article/details/6 ...
Mongodb installation & userguide
1.Mongodb Installation in Ubuntu (1) Download from: https://www.mongodb.org/downloads File: mongodb- ...
Java集合框架概述
集合框架指的是容器类.Java中大量持有对象的方式有数组和容器类两种方式.数组相较于容器类的优点在于:①随机访问效率高:由于是连续的存储空间,可以计算地址直接访问 ②类型确定:数组在创建时即可确定元素 ...
Linux网卡操作
单个网卡操作 [root@localhost ~]# ifdown eth0 #关闭网络 [root@localhost ~]# ifup eth0 #启动网络网络服务: [root@localho ...
hduoj 2955Robberies
Robberies Time Limit: 2000/1000 MS (Java/Others) Memory Limit: 32768/32768 K (Java/Others) Total ...
Redis入门--（一）简介NoSQL
1.什么是NoSql? 2.为什么需要NoSQL? 互联网经历了1.0和2.0的发展: web1.0 是早期新浪,雅虎等只能浏览,不能交互: 传统关系型数据库在应付web2.0这种动态网站的时候力不从 ...
linux 封禁ip
可以直接服务配置nginx.conf 添加 deny+IP 例如: 封禁单个IP deny 106.5.76.83; #封整个段即从123.0.0.1到123.255.255.254的命令deny 1 ...
海量数据去重之SimHash算法简介和应用
SimHash是什么 SimHash是Google在2007年发表的论文<Detecting Near-Duplicates for Web Crawling >中提到的一种指纹生成算法或 ...

xpath模块