Python爬虫解析htm时lxml的HtmlElement对象获取和设置inner html方法

Python的lxml是一个相当强悍的解析html、XML的模块，最新版本支持的python版本从2.6到3.6，是写爬虫的必备利器。它基于C语言库libxml2 和 libxslt，进行了Python范儿(Pythonic)的绑定，成为一个具有丰富特性又容易使用的Python模块。虽然特性丰富，但是它在修改数节点时又缺少了些接口，比如本文讲到的获取 inner html 和设置（修改）inner html功能。

解析网页的html一般使用lxml.html模块，步骤很简单分三步走：

(1) 导入模块：

import lxml.html

(2) 把html转换为html document 树，根节点就是<html>标签：

doc = lxml.html.fromstring(html)

(3) 使用xpath查找要提取的节点：

nodes = doc.xpath('//div[@class, 'the']/div[@id, 'xpath']')

以上三步分成简洁，实际使用中，可能要反复第三部，通过不同的xpath获得不同的节点进行数据提取。

可以说，lxml解析（只读模式）html的功能又强大又方便。但是，如果需要修改（写模式）某些节点的html就有点困难了，它在这方面提供的API很少，只有修改节点tag属性的API，比如修改节点的class，id，href等属性是可以的。

那么如何操作节点的实际html字符串呢？

1. 获取节点的inner html
那么，什么是inner html呢？首先，我们来看一段html代码示例：

<div class=”text”>这是div<a href=”/node”>节点</a>内容</div>

对于div 这个html标签节点，它的inner html就是:

这是div<a href=”/node”>节点</a>内容

即该标签包含的所有内容；而包含div标签在内的全部示例代码就是div的outer html。

明白了inner html 和 outer html的概念，我们就着手获取它们。

lxml.html.tostring(html_element) 接口的作用是把一个节点及其子节点形成的树转换成html，也就是该节点的outer html，由此我们来获得inner html，并实现为以下函数：

def get_inner_html(node):

    html = lxml.html.tostring(node, encoding="utf8").decode('utf8')

    p_begin = html.find('>') + 1

    p_end = html.rfind('<')

    return html[p_begin: p_end]

2. 设置节点的inner html
设置inner html相较于获取更复杂一些，我们还是以上面那段html代码为例：

<div class=”text”>这是div<a href=”/node”>节点</a>内容</div>

假设我们要把它的inner html 改成如下字符串：

this is div<a href=”/node”>node</a>text

则操作步骤是：

清空节点div里面的内容：包括它的text和子节点

把新的inner html转变成fragments

把fragments加到清空后的div节点

把以上步骤写出Python函数就是：

def set_inner_html(node, html):

    node.text = ''

    for child in node.getchildren():

        node.remove(child)                                                                                                                                           4

    fragments = lxml.html.fragments_fromstring(html)

    if type(fragments[0]) == str:

        node.text = fragments.pop(0)

    node.extend(fragments)

通过以上函数就可以成功把node里面的内容设置成想要的html内容，适合在动态修改网页结构内容时使用。

更多Python技术文章可以看 猿人学

Python爬虫解析htm时lxml的HtmlElement对象获取和设置inner html方法的更多相关文章

Python爬虫解析网页的4种方式值得收藏
用Python写爬虫工具在现在是一种司空见惯的事情,每个人都希望能够写一段程序去互联网上扒一点资料下来,用于数据分析或者干点别的事情. 我们知道,爬虫的原理无非是把目标网址的内容下载下来存储到内存 ...
python语法学习第十天--类与对象相关的BIF、魔法方法
一些相关的BIF: issubclass(class,classInfo)#判断是否为子类,classInfo可以为多个类的元组,其中一个是,返回true,一个类也被认为是自己的子类,object是所 ...
python爬虫中XPath和lxml解析库
什么是XML XML 指可扩展标记语言(EXtensible Markup Language) XML 是一种标记语言,很类似 HTML XML 的设计宗旨是传输数据,而非显示数据 XML 的标签需要 ...
python bs4解析网页时 bs4.FeatureNotFound: Couldn't find a tree builder with the features you requested: lxml. Do you need to inst（转）
Python小白,学习时候用到bs4解析网站,报错 bs4.FeatureNotFound: Couldn't find a tree builder with the features you re ...
Python 爬虫解析库的使用 --- XPath
一.使用XPath XPath ,全称XML Path Language,即XML路径语言,它是一门在XML文档中查找信息的语言.它最初是用来搜寻XML文档的,但是它同样适用于HTML文档的搜索. 所 ...
Python 爬虫解析库的使用 --- Beautiful Soup
知道了正则表达式的相关用法,但是一旦正则表达式写的有问题,得到的可能就不是我们想要的结果了.而且对于一个网页来说,都有一定的特殊结构和层级关系,而且有很多节点都有id或class来做区分,所以借助它们 ...
python爬虫解析页面数据的三种方式
re模块 re.S表示匹配单行 re.M表示匹配多行使用re模块提取图片url,下载所有糗事百科中的图片普通版 import requests import re import os if not ...
python爬虫解析库之Beautifulsoup模块
一介绍 Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库.它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式.Beautiful Soup会 ...
Python爬虫 XPath语法和lxml模块
XPath语法和lxml模块什么是XPath? xpath(XML Path Language)是一门在XML和HTML文档中查找信息的语言,可用来在XML和HTML文档中对元素和属性进行遍历. X ...

随机推荐

Image组件的使用
// 注意图片放置的目录问题 <Image source = {require('./img/logo.png')} style = {styles4.imageStyle}/> 注意要导 ...
MySQL知识点系统总结
MySQL数据库是一个非常流行的关系型数据库.配合Linux.PHP.Apache,简称lamp,是一般个人企业网站的首选.MySQL用起来不难,要系统的用好,可不是一件简单的事.于是PHP程序员雷雪 ...
3-3 man手册介绍
man手册介绍内容表示的意义: 各部分功能说明: SECTION: name:命令的名称及功能描述: SYNOPSIS:命令使用格式摘要: DESCRIPTION:详细描述信息: OPTIONS:选 ...
关于Java新手开发配置各种环境可能会遇到的的坑
一.软件的安装虽然国内的软件都支持中文目录安装,部分国外软件也支持,但是作为一名合格的程序开发者,必须做到以下几点 Windows下开发软件的安装目录和环境变量中永远不要包含中文字符,包括汉字[]. ...
牛客练习赛53 A-E
牛客联系赛53 A-E 题目链接:Link A 超越学姐爱字符串题意: 长度为N的字符串,只能有C,Y字符,且字符串中不能连续出现 C. 思路: 其实就是DP,\(Dp[i][c]\) 表示长度为 ...
【VS开发】关于线程安全一些细节体会
[VS开发]关于线程安全一些细节体会标签(空格分隔): [VS开发] 利用C++进行GUI界面开发,最大的问题往往是多线程安全问题,由于C++不具备收集内存垃圾的功能,所以必须由程序员负责维护,因此 ...
git stash save -a 遇到的坑 , 弹出匿藏错误
情景一: 用命令行的 : git stash save -u "描述" git stash save -a "描述" -u: 会把没有记录到的文件也保存下来(比 ...
linux-32bit-内存管理
一.进程与内存进程如何使用内存? 毫无疑问所有进程(执行的程序)都必须占用一定数量的内存,它或是用来存放从磁盘载入的程序代码,或是存放取自用户输入的数据等等.不过进程对这些内存的管理方式因内存用途不 ...
[转帖]Kubernetes CNI网络最强对比：Flannel、Calico、Canal和Weave
Kubernetes CNI网络最强对比:Flannel.Calico.Canal和Weave https://blog.csdn.net/RancherLabs/article/details/88 ...
SQL Server 下载与安装
1.首先去Microsoft官网下载对应的安装程序,下载地址:https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.运行安 ...

Python爬虫解析htm时lxml的HtmlElement对象获取和设置inner html方法

Python爬虫解析htm时lxml的HtmlElement对象获取和设置inner html方法的更多相关文章

随机推荐

热门专题