python--lxml

'''
xpath语法：
/：在子节点里面找
//:在子子孙孙里面找
//div：查找当前网页的所有div标签
//div/p：先查找所有div标签，再找div的子标签中的p标签
//div//p：现查找所有的div标签，再从div的子孙标签中找到p标签
//div/a：先查找所有div标签，再找div的子标签中的a标签
//div/a[@id]：先查找所有div标签，再找div的子标签中的拥有id属性的a标签

//div/a[1]：先查找所有的div标签，再找div的子标签中的第一个a标签，所以这里的索引是从1开始的，不是0
//div/a[last()]：和上面一样，不过这里是最后一个a标签
//div/a[position()<3]：前两个a标签
//div/a[@price]：拥有price属性的a标签
//div/a[@price=10]：拥有price属性，并且值等于10的a标签。当然里面还支持>,<,>=,<=等等

//div/*：*表示通配符，选取所有div的子标签
//div/a[@*]：选取所有div的子标签中带有属性的a标签，什么属性都可以，id、class、href等等都可以

//div/a | //div/p：选取所有的div的子标签中的所有a元素和p元素

//div/a[contains(@class, "BDE")]：找出所有div的子标签中的class属性包含"BDE"的a标签
//div/a[starts-with(@class, "BDE")]：找出所有div的子标签中的class属性以"BDE"开头的a标签

如果我想获取属性里面具体的值怎么办？比如我找到了a标签，我想要标签里面的href属性，该怎么做呢？其实也很简单。
//a/@href：获取href属性
//a/@class：获取class属性
//a/text()：获取文本

因此我们的文本也可以用来定位
//a[contains(text(), "清纯可爱")]：找出文本包含"清纯可爱"的a标签

我们可能注意到：@href、@class、text()前面只有一个/，如果是两个/的话，比如div标签，它里面是没有href属性的。但是div里面有a标签，a标签里面有href属性
我们用//div/@href是获取不到的，因为div没有href属性
但我们用//div//@href是可以获取到的，获取的是a标签里面的href，但是//div/@href只是会获取当前div的href
'''

from lxml import etree
import requests

res = requests.get("http://www.baidu.com",
                   headers={"User-Agent": "Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.110 Safari/537.36"})
res.encoding = res.apparent_encoding

# 调用etree内部的HTML方法，将html文本传进去，便得到一个可以进行xpath的对象
# 我们可以调用etree.tostring(html)，会得到一个字节对象，再解码会得到字符串，这里就不演示了。
html = etree.HTML(res.text)
# 找出class属性等于"toindex"的a标签
result = html.xpath("//a[@class='toindex']")
for res in result:
    # 打印的结果是一个标签
    print(res)  # <Element a at 0x30cb888>
    # 可以调用tostring转成字节
    print(etree.tostring(res))

    # 内部还有一个etree.parse()方法，可以直接传入html文件或者xml文件的路径，进行解析

# 获取一下内部属性
result = html.xpath("//a[@class='toindex']/@href")
# 由于标签只有一个，所以列表里面只有一个元素
print(result)  # ['/']
result = html.xpath("//a[@class='toindex']/@class")
print(result)  # ['toindex']
result = html.xpath("//a[@class='toindex']/text()")
print(result)  # ['百度首页']

result = html.xpath("//div[contains(@class, 'tab_inner')]")
for res in result:
    print(res)  # <Element div at 0x2644f88>
    print(etree.tostring(res))  # b'<div class="s_tab_inner">\n    <b>网页</b>\n    <a href=。。。。。。
    # 我们看到了，如果不是获取href、class、text等属性的时候，得到的依旧是一个Element对象，这就意味着我们可以继续使用xpath
    titles = res.xpath(".//a/text()")  # 注意这里是.//表示//，因为我们要在当前元素的子孙中去查找
    print(titles)  # ['资讯', '贴吧', '知道', '音乐', '图片', '视频', '地图', '文库', '更多»']
    # 我们试试不加.
    titles = res.xpath("//a/text()")
    # 可以看到内容就多了，因为即便是res.xpath，但制定//的话依旧会在全局html页面中查找
    print(titles)  # ['手写', '拼音', '关闭', '百度首页', '设置', '登录', '新闻', 'hao123', '地图', '视频', '贴吧', '学术', '登录', '设置', '更多产品', '资讯', '贴吧', '知道', '音乐', '图片', '视频', '地图', '文库', '更多»', '把百度设为主页', '关于百度', 'About\xa0\xa0Baidu', '百度推广', '使用百度前必读', '意见反馈', '京公网安备11000002000001号']

    # 进一步证实了两者结果是一样的
    print(res.xpath("//a/text()") == html.xpath("//a/text()"))  # True

python--lxml的更多相关文章

python笔记：windows 下安装 python lxml
原文:http://blog.csdn.net/zhaokuo719/article/details/8209496 windows 环境下安装 lxml python 1.首先保证你的python ...
python lxml install
之前记得安装libxslt和libxml yum install libxml* -yyum install libxslt* -y wget http://lxml.de/files/lxml-3. ...
Windows下安装Python lxml库（无废话版）
python官网:python-2.7.12.amd64.msihttps://pypi.python.org/pypi/setuptools:setuptools-28.6.0.zipsetupto ...
python lxml教程
目前有很多xml,html文档的parser,如标准库的xml.etree , beautifulsoup , 还有lxml. 都用下来感觉lxml不错,速度也还行,就他了. 围绕三个问题: 问题 ...
Python lxml 使用
lxml,是python中用来处理xml和html的功能最丰富和易用的库 from lxml import etree from lxml import html h = ''' <html&g ...
python lxml库生成xml文件-节点命名空间问题
lxml库,处理xml很强大,官方文档:https://lxml.de/tutorial.html#namespaces 例如: 我们要生成如下格式的报文: <ttt:jesson xmlns: ...
python处理xml的常用包（lib.xml、ElementTree、lxml）
python处理xml的三种常见机制 dom(随机访问机制) sax(Simple APIs for XML,事件驱动机制) etree python处理xml的三种包标准库中的xml Fredri ...
python网络爬虫之LXML与HTMLParser
Python lxml包用于解析html和XML文件,个人觉得比beautifulsoup要更灵活些 Lxml中的路径表达式如下: 在下面的表格中,我们已列出了一些路径表达式以及表达式的结果: 路径表 ...
python爬微信公众号前10篇历史文章（3）-lxml&xpath初探
理解lxml以及xpath 什么是lxml? python中用来处理XML和HTML的library.与其他相比,它能提供很好的性能, 并且它支持XPath. 具体可以查看官方文档->http: ...
Python爬虫基础之lxml
一.Python lxml的基本应用 <html> <head> <title> The Dormouse's story </title> </ ...

随机推荐

CentOS scp远程拷贝
scp(secure copy)是一个基于 SSH 协议在网络之间进行安全传输的命令, 其格式为“scp [参数] 本地文件远程帐户@远程 IP 地址:远程目录”. 1.主要参数 -v 显示详细的连 ...
IntellIJ IDEA 配置 Maven
一.配置Maven环境 1.下载apache-maven文件,选择自己需要的版本 2.解压1所下载文件,E:\apache-maven-3.5.4 3.配置Maven环境变量 a. MAVEN_HOM ...
【刷题】UOJ #79 一般图最大匹配
从前一个和谐的班级,所有人都是搞OI的.有 $n$ 个是男生,有 $0$ 个是女生.男生编号分别为 $1,-,n$ . 现在老师想把他们分成若干个两人小组写动态仙人掌,一个人负责搬砖另一个 ...
[BZOJ4942] [NOI2017]整数
题目背景在人类智慧的山巅,有着一台字长为1048576位(此数字与解题无关)的超级计算机,著名理论计算机科学家P博士正用它进行各种研究.不幸的是,这天台风切断了电力系统,超级计算机无法工作,而 ...
[NOIP2017]宝藏子集DP
题面:[NOIP2017]宝藏题面: 首先我们观察到,如果直接DP,因为每次转移的代价受上一个状态到底选了哪些边的影响,因此无法直接转移. 所以我们考虑分层DP,即每次强制现在加入的点的距离为k(可 ...
BZOJ5343 & 洛谷4602 & LOJ2555：[CTSC2018]混合果汁——题解
https://www.luogu.org/problemnew/show/P4602 https://loj.ac/problem/2555 https://www.lydsy.com/JudgeO ...
LibreOJ #6221. 幂数！（数论+dfs+剪枝）
写新题然后艹翻标程的感觉真是舒爽啊... 这题就是个dfs...先预处理出sqrt(n)范围内的素数,然后dfs构造合法的数就行了. 直接暴搜会TLE,需要剪一剪枝,不需要跑到最后一层再计算答案,边构 ...
YBT 5.4 状态压缩动态规划
#loj 10170. 「一本通 5.4 例 1」骑士看数据范围n<=10,所以不是搜索就是状压dp,又因为搜索会超时所以用dp dp[i][k][j]表示现已经放到第i行,前面共有k个,这一 ...
wildcard ，notdir ，patsubst ，obj=$(dir:%.c=%.o)
Makefile中wildcard的介绍在Makefile规则中,通配符会被自动展开.但在变量的定义和函数引用时,通配符将失效.这种情况下如果需要通配符有效,就需要使用函数“wildcard”,它的 ...
Centos +django+nginx
WSGI配置 #!/usr/bin/python """ WSGI config for rana project. It exposes the WSGI callab ...

python--lxml

python--lxml的更多相关文章

随机推荐

热门专题