使用 lxml 中的 xpath 高效提取文本与标签属性值

以下代码在 python 3.5 + jupyter notebook 中运行测试无误！

# 我们爬取网页的目的，无非是先定位到DOM树的节点，然后取其文本或属性值

myPage = '''<html>

        <title>TITLE</title>

        <body>

        <h1>我的博客</h1>

        <div>我的文章</div>

        <div id="photos">

         <img src="pic1.jpeg"/><span id="pic1">PIC1 is beautiful!</span>

         <img src="pic2.jpeg"/><span id="pic2">PIC2 is beautiful!</span>

         <p><a href="http://www.example.com/more_pic.html">更多美图</a></p>

         <a href="http://www.baidu.com">去往百度</a>

         <a href="http://www.163.com">去往网易</a>

         <a href="http://www.sohu.com">去往搜狐</a>

        </div>

        <p class="myclassname">Hello,\nworld!<br/>-- by Adam</p>

        <div class="foot">放在尾部的其他一些说明</div>

        </body>

        </html>'''

html = etree.fromstring(myPage)

# 一、定位

divs1 = html.xpath('//div')

divs2 = html.xpath('//div[@id]')

divs3 = html.xpath('//div[@class="foot"]')

divs4 = html.xpath('//div[@*]')

divs5 = html.xpath('//div[1]')

divs6 = html.xpath('//div[last()-1]')

divs7 = html.xpath('//div[position()<3]')

divs8 = html.xpath('//div|//h1')

divs9 = html.xpath('//div[not(@*)]')

# 二、取文本 text() 区别 html.xpath('string()')

text1 = html.xpath('//div/text()')

text2 = html.xpath('//div[@id]/text()')

text3 = html.xpath('//div[@class="foot"]/text()')

text4 = html.xpath('//div[@*]/text()')

text5 = html.xpath('//div[1]/text()')

text6 = html.xpath('//div[last()-1]/text()')

text7 = html.xpath('//div[position()<3]/text()')

text8 = html.xpath('//div/text()|//h1/text()')

# 三、取属性 @

value1 = html.xpath('//a/@href')

value2 = html.xpath('//img/@src')

value3 = html.xpath('//div[2]/span/@id')

# 四、定位（进阶）

# 1.文档(DOM)元素(Element)的find，findall方法

divs = html.xpath('//div[position()<3]')

for div in divs:

    ass = div.findall('a')  # 这里只能找到:div->a, 找不到:div->p->a

    for a in ass:

        if a is not None:

            #print(dir(a))

            print(a.text, a.attrib.get('href')) #文档(DOM)元素(Element)的属性：text, attrib

# 2.与1等价

a_href = html.xpath('//div[position()<3]/a/@href')

print(a_href)

# 3.注意与1、2的区别

a_href = html.xpath('//div[position()<3]//a/@href')

print(a_href)

使用 lxml 中的 xpath 高效提取文本与标签属性值的更多相关文章

python在lxml中使用XPath语法进行#数据解析
在lxml中使用XPath语法: 获取所有li标签: from lxml import etree html = etree.parse('hello.html') print type(html) ...
CSS中隐藏内容的3种方法及属性值
CSS中隐藏内容的3种方法及属性值 (2011-02-11 13:33:59) 在制作网页时,隐藏内容也是一种比较常用的手法,它的作用一般有:隐藏文本/图片.隐藏链接.隐藏超出范围的内容.隐藏弹出 ...
eclipse 中main()函数中的String[] args如何使用？通过String[] args验证账号密码的登录类？静态的主方法怎样才能调用非static的方法——通过生成对象？在类中制作一个方法——能够修改对象的属性值？
eclipse 中main()函数中的String[] args如何使用? 右击你的项目,选择run as中选择 run configuration,选择arguments总的program argu ...
class属性中为什会添加非样式的属性值？
来由在一些插件中经常看到, 在class属性中出现一些跟样式无关的属性值, 这些值在css样式中没有对应定义, 但是在js中会根据这个值来给dom对象添加特殊的行为, 例如: jquery vali ...
python中使用XPath
XPath在Python的爬虫学习中,起着举足轻重的地位,对比正则表达式 re两者可以完成同样的工作,实现的功能也差不多,但XPath明显比re具有优势,在网页分析上使re退居二线. XPath介绍: ...
python中使用XPath笔记
XPath在Python的爬虫学习中,起着举足轻重的地位,对比正则表达式 re两者可以完成同样的工作,实现的功能也差不多,但XPath明显比re具有优势,在网页分析上使re退居二线. XPath介绍: ...
在Java中使用xpath对xml解析
xpath是一门在xml文档中查找信息的语言.xpath用于在XML文档中通过元素和属性进行导航.它的返回值可能是节点,节点集合,文本,以及节点和文本的混合等.在学习本文档之前应该对XML的节点,元素 ...
PHP如何提取img标签属性
extract_attrib是一个提取的图像标签属性的PHP脚本函数,使用正则表达式方法提取. 当你想在HTML的img标签中提取图像数据,这非常有用. 如果你知道如何修改正则表达式,那么同样的功能进 ...
如何使用免费PDF控件从PDF文档中提取文本和图片
如何使用免费PDF控件从PDF文档中提取文本和图片概要现在手头的项目有一个需求是从PDF文档中提取文本和图片,我以前也使用过像iTextSharp, PDFBox 这些免费的PD ...

随机推荐

ORACLE数据库AWR工具学习
AWR(Automatic Workload Repository)即工作负载信息库,主要用于收集数据库运行状态的资料库,通过AWR报告可以分析ORACLE数据库的性能,从而给出优化策略. 图一:此图 ...
Oracle EBS PO 接收事务处理查不到对应的数据
1. 有一种情况是采购订单的借记账户不对不匹配OU 2. 有可能是因为接口表卡住了 PENDING状态的把对应的数据删除掉即可 3. 接收时发生异常那个,丢失了接收头,rcv_shipment_h ...
[C# | XML] XML 反序列化解析错误：<xml xmlns=''> was not expected. 附通用XML到类解析方法
使用 XML 反化时出现错误: public static TResult GetObjectFromXml<TResult>(string xmlString) { TResult re ...
【Redis】Linux下Redis安装与redis-desktop-manager使用（无法连接Redis服务器解决方法）
新手小白开始学习nosql数据库Redis,首先从安装入手. 全文分两部分:Linux下安装redis,可视化工具redis desktop manager的简单使用. 一.安装下载,解压缩和编译R ...
选中复选框，才能在文本框中输东西。button按钮已启用，
辉光UIView的category
辉光UIView的category 本人视频教程系类 iOS中CALayer的使用效果如下: 源码: UIView+GlowView.h 与 UIView+GlowView.m // // UI ...
Java 系统学习梳理_【All】
Java基础 1. Java学习---JDK的安装和配置 2. Java学习---Java代码编写规范 2. Java学习---HashMap和HashSet的内部工作机制 3. Java学习---J ...
RTCM32转码至RTCM23，再次测试，一些收获
RTCM32是2013年发布的,RTCM23是2001年发布,两者相隔十多年,某些软件已经不支持RTCM32的解码.故在此对RTCM32的编码进行转换,使用2018年4月9日天宝接收机数据.编码格式为 ...
XtraEditors二、ComboBox、ComboBoxEdit、CheckedComboBoxEdit
https://documentation.devexpress.com/WindowsForms/DevExpress.XtraEditors.ComboBoxEdit.class 1.使用Winf ...
【目录】利用Python进行数据分析(第2版)
第一章准备工作 1.1 What Is This Book About(这本书是关于什么的) 1.2 Why Python for Data Analysis?(为什么使用Python做数据分析) ...

使用 lxml 中的 xpath 高效提取文本与标签属性值

使用 lxml 中的 xpath 高效提取文本与标签属性值的更多相关文章

随机推荐

热门专题