lxml简明教程

原文链接：http://yifei.me/note/464

最近要做下微信爬虫，之前写个小东西都是直接用正则提取数据就算了，如果需要更稳定的提取数据，还是使用 xpath 定位元素比较可靠。周末没事，从爬虫的角度研究了一下 python xml 相关的库。

Python 标准库中自带了 xml 模块，但是性能不够好，而且缺乏一些人性化的 API，相比之下，第三方库 lxml 是用 Cython 实现的，而且增加了很多实用的功能，可谓爬虫处理网页数据的一件利器。lxml 大部分功能都存在 lxml.etree中，所以下文都假定已经执行了

from lxml import etree

解析 XML 字符串

网页下载下来以后是个字符串的形式，使用etree.fromstring(str)构造一个 etree._ElementTree对象，使用 etree.tostring(t)返回一个字符串

>>> xml_string = '<root><foo id="foo-id" class="foo zoo">Foo</foo><bar>中文</bar><baz></baz></root>'

>>> root = etree.fromstring(xml_string.encode('utf-8')) # 最好传 byte string

>>> etree.tostring(root)

# 默认返回的是 byte string

b'<root>root content<foo id="foo-id" class="foo zoo">Foo</foo><bar>Bar</bar><baz/></root>'

>>> print(etree.tostring(root, pretty_print=True).decode('utf-8'))

#decode 一下变成 unicode

<root>

  <foo id="foo-id" class="foo zoo">Foo</foo>

  <bar>Bar</bar>

  <baz/> # 注意这里没有子节点的 baz 节点被变成了自闭和的标签

</root>

>>> type(root)

<class 'lxml.etree._Element'>

# 可以看出 tostring 返回的是一个_Element类型的对象，也就是整个 xml 树的根节点

Element结构

etree._Element 是一个设计很精妙的结构，可以把他当做一个对象访问当前节点自身的文本节点，可以把他当做一个数组，元素就是他的子节点，可以把它当做一个字典，从而遍历他的属性

>>> root.text

'root content' # 注意只是 root 自身的文本，并不包含子节点的文本

>>> root.tag

'root'

>>> root[0].tag

'foo'

>>> foo = root[0]

>>> for attr, val in foo.items():

...     print(attr, val)

...

id foo-id

class foo zoo

>>> foo.get('id')

'foo-id'

>>> foo.attrib

{'class': 'foo zoo', 'id': 'foo-id'}

Element 和 ElementTree

xml 是一个树形结构，lxml 使用etree._Element和 etree._ElementTree来分别代表树中的节点和树，etree.ELement和 etree.ElementTree 分别是两个工厂函数

>>> t = root.getroottree()

# 获得一个节点对应的树

<lxml.etree._ElementTree object at 0x107295308>

>>> t.getroot() == root

# 使用getroot 返回一个树的根节点

True

>>> foo_tree = etree.ElementTree(root)

# 也可以从一个节点构造一个树，那么这个节点就是这棵树的根

>>> foo_tree.getroot().tag

'foo'

>>> foo.getroottree().tag

'root'

#注意，foo 这个节点的 roottree 仍然是以 root 节点为根的

其他方法如getparent()/getprevious()/getnext()都是显而易见的，不赘述了

XPath

XPath 实在太强大了，在定位元素方面绝对是秒杀 CSS 选择器。在 lxml 中，_Element和 _ElementTree 分别具有xpath 函数，两者的区别在于：

如果是相对路径，_Element.xpath是以当前节点为参考的，_ElementTree.xpath以根为参考

如果是绝对路径，_ElementTree.xpath是以当前节点的getroottree的根节点为参考的

还有，如果 xpaht 表达式应该返回元素的话，总是返回一个数组，即使只有一个元素

>>> foo.xpath('/root')[0].tag

'root'

>>> foo.xpath('.')[0].tag

'foo'

>>>

>>> t.xpath('/root')[0].tag

'root'

>>> t.xpath('.')[0].tag

'root'

>>>

lxml 还支持几个函数 find/findall，他们使用 ElementPath，是一种类似 xpath 的语言，感觉很是奇怪，lxml 的文档描述他是 xpath 的一个子集，暂时不看了。

HTML

最后再来讨论一下 HTML，以上的讨论都是基于 xml 的，HTML 和 xml 还是有些许不同的，lxml 也有一个专门的 html 模块。

比如我们解析 html 的话最好使用html.fromstring()，返回的是lxml.html.HtmlElement，具有上述的所有能力，同时能够更好地兼容 html。

>>> etree.fromstring('<meta charset=utf-8 />')

# 比如这句就会报错，因为属性值没有用引号括起来

Traceback (most recent call last):

  File "<stdin>", line 1, in <module>

  File "src/lxml/lxml.etree.pyx", line 3213, in lxml.etree.fromstring (src/lxml/lxml.etree.c:77737)

  File "src/lxml/parser.pxi", line 1830, in lxml.etree._parseMemoryDocument (src/lxml/lxml.etree.c:116674)

  File "src/lxml/parser.pxi", line 1711, in lxml.etree._parseDoc (src/lxml/lxml.etree.c:115220)

  File "src/lxml/parser.pxi", line 1051, in lxml.etree._BaseParser._parseUnicodeDoc (src/lxml/lxml.etree.c:109345)

  File "src/lxml/parser.pxi", line 584, in lxml.etree._ParserContext._handleParseResultDoc (src/lxml/lxml.etree.c:103584)

  File "src/lxml/parser.pxi", line 694, in lxml.etree._handleParseResult (src/lxml/lxml.etree.c:105238)

  File "src/lxml/parser.pxi", line 624, in lxml.etree._raiseParseError (src/lxml/lxml.etree.c:104147)

lxml.etree.XMLSyntaxError: AttValue: " or ' expected, line 1, column 15

>>> html.fromstring('<meta charset=utf-8>')

# 没有问题

html.HtmlElement同时多了几项功能

>>> doc = html.fromstring('<div><p>lorem <span>poium</span></p></div>')

>>> doc.text_content()

'lorem poium'