如何使用lxml的XPath功能

　　用python写爬虫呢，最常见的过滤方式有BeautifulSoup, css selector, XPath，如果使用前两个，BeautifulSoup包就能解决，然而使用XPath，就要引入lxml包了。

接下来我以我的博客为例，教大家怎么使用XPath。

我们要做什么：

关于XPath，网上有诸多语法教程，我不再详细介绍。

我们要抓取的是 http://www.cnblogs.com/chenyansu/ 中第三篇文章，7月15日的文章的简介，它在网页中显示为这样的：

　　在chrome浏览器中右键点击相关正文，选择最后的检查选项：将在右边出现一个文档树，相关位置已被选定，右键，copy -> copy XPath

　得到结果：'//*[@id="main"]/div[3]/div[2]'

实践代码：

import requests
from lxml import etree

# requests包
testurl = "http://www.cnblogs.com/chenyansu/"
session = requests.Session()
s = session.get(testurl)

# lxml无法处理响应文件，用.content输出正文
s = s.content

# lxml包
# 将对象转化为html
s = etree.HTML(s)

# html拥有xpath方法
x = s.xpath('//*[@id="main"]/div[3]/div[2]')
print(x)

# 循环输出x内容
for child in x:
    print(child.text)

总体思路是：

用requests包获得全部网页内容 -> 用.contente选取正文 -> 用lxml转换为html -> 使用XPath -> 将结果循环输出

注意：

利用XPath对table的绝对定位有些问题, 比如说

'//*[@id="main"]/section/div/table/tbody/tr[8]/td/text()'

这样定位到的会是一个空的list.

建议使用'//td'这样的相对定位，这样将得到所有的表格内容的list，再利用下标或者切片输出。

如何使用lxml的XPath功能的更多相关文章

lxml etree xpath
from lxml import etree #####################基本用法: ##################### html = ''' <h1 class=&quo ...
爬虫之lxml - etree - xpath的使用
# 解析原理: # - 获取页面源码数据 # - 实例化一个etree对象,并且将页面源码数据加载到该对象中 # - 调用该对象的xpath方法进行指定标签定位 # - xpath函数必须结合着xpa ...
lxml的XPath解析
BeautifulSoup 可以将lxml作为默认的解析器使用,同样lxml可以单独使用.下面比较这两者之间优缺点: BeautifulSoup和lxml原理不一样,BeautifulSoup是基于D ...
在selenium测试中使用XPATH功能函数starts-with、contains、descendant、ancestor、text()定位网页元素
项目中一些使用xpath函数的复杂例子,记录于此 1. 使用starts-with //div[starts-with(@id,'res')]//table//tr//td[2]//table//tr ...
Xpath语法与lxml库的用法
BeautifulSoup 已经是非常强大的库了,不过还有一些比较流行的解析库,例如 lxml,使用的是 Xpath 语法,同样是效率比较高的解析方法. 1.安装 pip install lxml 2 ...
网络爬虫之Selenium模块和Xpath表达式+Lxml解析库的使用
实际生产环境下,我们一般使用lxml的xpath来解析出我们想要的数据,本篇博客将重点整理Selenium和Xpath表达式,关于CSS选择器,将另外再整理一篇! 一.介绍: selenium最初是一 ...
XPath简介、功能及使用方法
html = '''<html><head><title>The Dormouse's story</title></head><bo ...
python爬微信公众号前10篇历史文章（3）-lxml&xpath初探
理解lxml以及xpath 什么是lxml? python中用来处理XML和HTML的library.与其他相比,它能提供很好的性能, 并且它支持XPath. 具体可以查看官方文档->http: ...
【Python】Python加lxml实现图片解析下载功能
1.下载网页:OpenHtml.py import urllib.request from urllib.parse import quote class HtmlLoader(object): de ...

随机推荐

微信小程序代开发
微信申请第三方之后可以获取授权方的很多权限,主要的是生码和待开发,生码的第三方授权之前已经写了一篇文章,最近做了小程序待开发,总结一下写下来供大家参考注意事项:如果在调试过程中返回了错误码请到小程序 ...
[USACO08JAN]手机网络Cell Phone Network
[USACO08JAN]手机网络Cell Phone Network 题目描述 Farmer John has decided to give each of his cows a cell phon ...
html中p标签行间距的问题
使用CSS行高样式line-height可以设置调整p行间距,但是同时会影响每行文字间的上下间距,所以使用line-height虽然可以用来设置html p 行距离间隔,但是不是很实用,一般line- ...
最全Oracle环境搭建之.NET程序员初遇Oracle
前言:如果你习惯了傻瓜式的一步步安装,那么Oracle和.NET搭配,绝对会让你头痛不已. 目前我不敢保证自己理解的Oracle理论部分100%正确,但环境安装过程一定可以收藏以备不时之需. 路这么长 ...
MyElipse配置
DK1.6.0+Tomcat6.0+myEclipse的安装配置 C:\Users\Administrator\AppData\Local\Genuitec\Pulse Explorer JDK1.6 ...
hive集成sentry的sql使用语法
Sentry权限控制通过Beeline(Hiveserver2 SQL 命令行接口)输入Grant 和 Revoke语句来配置.语法跟现在的一些主流的关系数据库很相似.需要注意的是:当sentry服务 ...
在使用<script>嵌入JavaScript代码时，不要在代码中的任何地方出现"</script>"字符串
在使用<script>嵌入JavaScript代码时,记住不要在代码中的任何地方出现"</script>"字符串.例如浏览器执行下面代码会报错: <s ...
gulp inline
在html中所有需要内敛的文件 script link 后面都要写上inline 这样才能够,内敛到文件中.
HDOJ 1260 DP
Tickets Time Limit: 2000/1000 MS (Java/Others) Memory Limit: 65536/32768 K (Java/Others)Total Sub ...
VB6之断点续传
闲来无事,研究了下HTTP的断点续传,用VB6写了小Demo. 关于HTTP-Range细节可参考: http://www.w3.org/Protocols/rfc2616/rfc2616.html ...

如何使用lxml的XPath功能

如何使用lxml的XPath功能的更多相关文章

随机推荐

热门专题