lxml.etree.HTML(text) 解析HTML文档

0.参考

http://lxml.de/tutorial.html#the-xml-function

There is also a corresponding function HTML() for HTML literals.

>>> root = etree.HTML("<p>data</p>")

>>> etree.tostring(root)

b'<html><body><p>data</p></body></html>'

1.基本用法

from lxml import etree

# Parses an HTML document from a string constant.  Returns the root nood

root = etree.HTML(r.text) #<Element html at 0x7bb8208>

1.1 xpath 和 cssselect 获取文字和属性

In [83]: for item in root.xpath('//button')[:1]:

    ...:     print(item)

    ...:     print(item.text)                           #获取文字

    ...:     print(item.xpath('./@id'))

    ...:

<Element button at 0x84277c8>

Requests Generator

['btn_requests']

###

In [84]: for item in root.cssselect('button')[:1]:

    ...:     print(item)

    ...:     print(item.text)

    ...:     print(item.cssselect('::attr(id)'))        #不支持伪元素写法

    ...:

    ...:

<Element button at 0x84277c8>

Requests Generator

ExpressionError: Pseudo-elements are not supported.

###

In [92]: for item in root.cssselect('button')[:1]:

    ...:     print(item.get('id', ''))                  #获取属性

btn_requests

###

In [93]: for item in root.cssselect('button')[:1]:

    ...:     print(item.xpath('./@id'))                 #嵌套

    ...:

['btn_requests']

1.2 美化打印

print(etree.tostring(root, pretty_print=True).decode('utf-8'))      # 美化打印

# You can also serialise to a Unicode string without declaration by

# passing the ``unicode`` function as encoding (or ``str`` in Py3),

# or the name 'unicode'.  This changes the return value from a byte

# string to an unencoded unicode string.

print(etree.tostring(root, encoding=str, pretty_print=True))        #py3 使之返回 text

print(etree.tostring(root, encoding=unicode, pretty_print=True))    #py2 使之返回 unicode

1.3 自动补全

In [109]: rt = etree.HTML('<html><p>123</p></html>')            #自动补全

In [110]: print(etree.tostring(rt, encoding=str, pretty_print=True))

<html>

  <body>

    <p>123</p>

  </body>

</html>

1.4 fromstring 不支持残缺片段，不会自动补全

In [115]: rt = etree.fromstring('<html><p>456</html>')           #fromstring 不支持残缺片段，不会自动补全

XMLSyntaxError: Opening and ending tag mismatch: p line 1 and html, line 1, column 20

In [116]: rt = etree.fromstring('<html><p>456</p></html>')

In [117]: print(etree.tostring(rt, encoding=str, pretty_print=True))

<html>

  <p>456</p>

</html>

lxml.etree.HTML(text) 解析HTML文档的更多相关文章

网络电视精灵~分析~~~~~~简单工厂模式，继承和多态，解析XML文档，视频项目
小总结: 所用技术: 01.C/S架构,数据存储在XML文件中 02.简单工厂模式 03.继承和多态 04.解析XML文档技术 05.深入剖析内存中数据的走向 06.TreeView控件的使用核心: ...
使用dom4j解析XML文档
dom4j的包开源包,不属于JDK里面,在myeclipse中要单独导入在项目中,这里不累赘了做这个过程,很慢,因为很多方法没用过不熟悉,自己得去查帮助文档,而且还得去试,因为没有中文版,英文翻译不 ...
四种生成和解析XML文档的方法详解（介绍+优缺点比较+示例）
众所周知,现在解析XML的方法越来越多,但主流的方法也就四种,即:DOM.SAX.JDOM和DOM4J 下面首先给出这四种方法的jar包下载地址 DOM:在现在的Java JDK里都自带了,在xml- ...
java 解析XML文档
Java 解析XML文档一.解析XML文档方式: 1.DOM方式:将整个XML文档读取到内存中,按照XML文件的树状结构图进行解析. 2.SAX方式:基于事件的解析,只需要加载XML中的部分数据,优 ...
Android解析Excel文档完整示例
MainActivity如下: package cc.testexcel; import java.io.File; import jxl.Cell; import jxl.CellType; imp ...
DOM4J解析XML文档
Tip:DOM4J解析XML文档 Dom4j是一个简单.灵活的开放源代码的库.Dom4j是由早期开发JDOM的人分离出来而后独立开发的.与JDOM不同的是,dom4j使用接口和抽象基类,虽然Dom4j ...
Java解析word文档
背景在互联网教育行业,做内容相关的项目经常碰到的一个问题就是如何解析word文档. 因为系统如果无法智能的解析word,那么就只能通过其他方式手动录入word内容,效率低下,而且人工成本和录入出错率 ...
python 解析docx文档的方法，以及利用Python从docx文档提取插入的文本对象和图片
首先安装docx模块,通过pip install docx或者在docx官方链接上下载安装都可以下面来看下如何解析docx文档:文档格式如下有3个部分组成 1 正文:text文档 2 一个表格. ...
python之HTMLParser解析HTML文档
HTMLParser是Python自带的模块,使用简单,能够很容易的实现HTML文件的分析.本文主要简单讲一下HTMLParser的用法. 使用时需要定义一个从类HTMLParser继承的类,重定义函 ...

随机推荐

带拦截器配置的 struts.xml文件
<?xml version="1.0" encoding="UTF-8"?> <!DOCTYPE struts PUBLIC "-/ ...
关于ESB(企业服务总线)的学习笔记
MQ(消息队列 message queues),它是一种应用程序对应用程序的通信方法.排队指的是应用程序通过队列来通信.队列的使用除去了接收和发送应用程序同时执行的要求. Web Sevice 技术, ...
MySQL 无法启动，出现 “发生系统错误 1067。”
出现场景使用 net start mysql 时无法启动,并出现:发生系统错误 1067. 解决过程很多情况都可以导致该错误提示,可以先查找 "Windows 日志" : 打开 ...
Docker的可视化管理工具对比
Docker的可视化管理工具有DockerUI.Shipyard.Rancher.Portainer等等,这里主要对这几个进行优劣对比. DockerUI: 优点 (1)支持container批量 ...
第四届CCCC团体程序设计天梯赛后记
一不小心又翻车了,第二次痛失200分 1.开局7分钟A了L2-3,一看榜已经有七个大兄弟排在前面了,翻车 * 1 2.把L1-3 A了18分,留了两分准备抢顽强拼搏奖,最后五秒钟把题过了,万万没想到还 ...
lcd驱动框架
目录 lcd驱动框架框图程序分析入口打开open 读read 初始化registered_fb 注册小结程序设计测试方式一操作fb0 方式二操作tty 方式三操作终端完整程序 tit ...
Go语言系列（六）- 接口和反射
接口 1. 定义: Interface类型可以定义一组方法,但是这些不需要实现.并且interface不能包含任何变量. type example interface{ Method1(参数列表) 返 ...
Docker：网络及数据卷设置 [四]
一.Docker网络设置默认情况下,docker会创建一个桥接网卡[docker 0],docker有2种映射方式,一种是随机映射,一种是指定映射提示:生产场景一般不使用随机映射,但是随机映射的好 ...
wxpython多线程通信的应用-实现边录音边绘制音谱图
#!bin/bash/python # -*- coding=utf-8 -*- from __future__ import division import threading import wx ...
[物理学与PDEs]第5章习题2 Jacobian 的物质导数
验证 (3. 6) 式, 即证明 $$\bex \cfrac{\rd J}{\rd t}=J\Div_y {\bf v}. \eex$$ 证明: $$\beex \bea \cfrac{\rd J}{ ...

lxml.etree.HTML(text) 解析HTML文档

0.参考

1.基本用法

1.1 xpath 和 cssselect 获取文字和属性

1.2 美化打印

1.3 自动补全

1.4 fromstring 不支持残缺片段，不会自动补全

lxml.etree.HTML(text) 解析HTML文档的更多相关文章

随机推荐

热门专题