转：Python网页解析：BeautifulSoup vs lxml.html

转自：http://www.cnblogs.com/rzhang/archive/2011/12/29/python-html-parsing.html

Python里常用的网页解析库有BeautifulSoup和lxml.html，其中前者可能更知名一点吧，熊猫开始也是使用的BeautifulSoup，但是发现它实在有几个问题绕不过去，因此最后采用的还是lxml：

1. BeautifulSoup太慢。熊猫原来写的程序是需要提取不定网页里的正文，因此需要对网页进行很多DOM解析工作，经过测试可以认定BS平均比lxml要慢10倍左右。原因应该是libxml2+libxslt的原生C代码比python还是要更快吧

2. BS依赖python自带的sgmllib，但是这个sgmllib至少有两个问题。首先，它解析“class=我的CSS类”这样的字符串会有问题，参考下面的代码就知道了。

from BeautifulSoup import BeautifulSoup

html = u'<div class=我的CSS类>hello</div>'

print BeautifulSoup(html).find('div')['class']

打印出来的结果是长度为零的字符串，而不是“我的CSS类”。

不过这个问题可以通过外围代码来解决，只要改写一下sgmllib的attrfind这个查找元素属性的正则就行，可以改成

1	`sgmllib.attrfind` `=` `re.compile(r'\s([a-zA-Z_][-.:a-zA-Z_0-9])(\s=\s(\'[^\']\'\|"[^"]"\|[^\s^\'^\"^>]*))?')`

这个问题可以说是网页书写不规范造成的，也不能怨sgmllib吧，但是这和BS原来希望能解析格式不好的HTML的宗旨是相违背的。

但是第二个问题就比较要命了，参看下面的示例代码。

from BeautifulSoup import BeautifulSoup

html = u'<a onclick="if(x>10) alert(x);" href="javascript:void(0)">hello</a>'

print BeautifulSoup(html).find('a').attrs

打印出来的结果是：

1	`[(u'onclick', u'if(x>10) alert(x);')]`

显然其中的href属性被抛弃了，原因就是sgmllib库在解析属性的时候一旦遇到了>等特殊符号就会结束属性的解析，要解决这个问题，只能修改sgmllib中SGMLParser的parse_starttag代码，找到292行，即k = match.end(0)这一行，添加下面的代码即可：

if k > j:

match = endbracket.search(rawdata, k+1)

if not match: return -1

j = match.start(0)

因此对比起来lxml会好很多，也许在解析某些HTML的时候真的会出问题，但是就现在使用的情况来说还是挺好的。而且lxml的xpath感觉真的很棒，几年前在折腾ASP.NET/Web Service的时候学习过XPath/XSLT之类的东西，但是实用其实挺少的，这次用lxml的xpath，能速度搞定一大堆较繁琐的元素查找，简直太爽了。例如要查找所有有name属性和content属性的meta元素：

1	`dom.xpath('.//meta[@name][@content]')`

下面是判断元素x是否是元素y的祖节点的代码：

1	`x` `in` `y.xpath('ancestor-or-self::*')`

此外，lxml里还支持string-length、count等XPath 1.0的函数(参见XPath and XSLT with lxml)。不过2.0的函数，如序列操作的函数就不行了，这需要底层libxml2和libxslt库的升级才行。

当然，lxml也有它自己的问题，那就是多线程方面貌似有重入性问题，如果需要解析大量网页，那只能启动多个进程来试试了。

转：Python网页解析：BeautifulSoup vs lxml.html的更多相关文章

Python网页解析库：用requests-html爬取网页
Python网页解析库:用requests-html爬取网页 1. 开始 Python 中可以进行网页解析的库有很多,常见的有 BeautifulSoup 和 lxml 等.在网上玩爬虫的文章通常都是 ...
Python网页解析
续上篇文章,网页抓取到手之后就是解析网页了. 在Python中解析网页的库不少,我最开始使用的是BeautifulSoup,貌似这个也是Python中最知名的HTML解析库.它主要的特点就是容错性很好 ...
Python 网页解析器
Python 有几种网页解析器? 1. 正则表达式 2.html.parser (Python自动) 3.BeautifulSoup(第三方)(功能比较强大) 是一个HTML/XML的解析器 4.lx ...
网页解析--BeautifulSoup练习
# coding = utf-8 # BeautifulSoup 主要功能是解析提取HTML数据 # re lxml bs4 # pip install Beautifulsoup4 # from b ...
ubuntu下的python网页解析库的安装——lxml, Beautiful Soup, pyquery, tesserocr
lxml 的安装(xpath) pip3 install lxml 可能会缺少以下依赖: sudo apt-get install -y python3-dev build-e ssential li ...
Python爬虫解析htm时lxml的HtmlElement对象获取和设置inner html方法
Python的lxml是一个相当强悍的解析html.XML的模块,最新版本支持的python版本从2.6到3.6,是写爬虫的必备利器.它基于C语言库libxml2 和 libxslt,进行了Pytho ...
python 之网页解析器
一.什么是网页解析器 1.网页解析器名词解释首先让我们来了解下,什么是网页解析器,简单的说就是用来解析html网页的工具,准确的说:它是一个HTML网页信息提取工具,就是从html网页中解析提取出“ ...
关于爬虫中常见的两个网页解析工具的分析 —— lxml / xpath 与 bs4 / BeautifulSoup
http://www.cnblogs.com/binye-typing/p/6656595.html 读者可能会奇怪我标题怎么理成这个鬼样子,主要是单单写 lxml 与 bs4 这两个 py 模块名可 ...
【Python爬虫】BeautifulSoup网页解析库
BeautifulSoup 网页解析库阅读目录初识Beautiful Soup Beautiful Soup库的4种解析器 Beautiful Soup类的基本元素基本使用标签选择器节点操作 ...

随机推荐

Linux-Shell脚本编程-学习-8-函数
在这章往后的学习中,我讲尽可能详细的讲书中讲到的都记录到这里,以便以后方便查看. 什么是函数,函数就是一段代码,这段代码可以在我们需要的位置调用,那么这段代码就叫做函数. 在Shell中,定义一个函数 ...
6.爬虫 requests库讲解总结
requests库的总结: 用ProcessOn根据前面的几节内容做了个思维导图:
以太坊remix IDE安装步骤
Remix 以太坊Solidity IDE搭建与初步使用以太坊: 因为以太坊为开源社区,虽然东西很优秀,但是组件十分的杂乱,因此首先简单介绍下以太坊的一些常用组件: Geth: Geth是由以太坊基 ...
HDU 4782 Beautiful Soup （模拟+注意细节）
思路就是用栈模拟,不用开实体的栈,直接记一个top指针就行. 说说这题的细节: 1.tag标签里的内容不要动,原样输出.比如<p aa bb cc>,就这样输出就行,不要删空格.题目中说了 ...
Mac上基于hexo+GitHub搭建个人博客(一)
原文地址: http://fanjiajia.cn/2018/11/23/Mac%E4%B8%8A%E5%9F%BA%E4%BA%8Ehexo+GitHub%E6%90%AD%E5%BB%BA%E4% ...
web相关基础知识4
一.定位的盒子居中 Css可见性 overflow: hidden; 溢出隐藏常用在超出盒子之后就隐藏 visibility: hidden; 隐藏元素隐藏之后还占据原来的位 ...
BZOJ4419 SHOI2013发微博（平衡树）
好友状态的变化次数不会超过m,于是考虑暴力,对每个人记录其好友关系的变化,通过前缀和计算贡献.这需要查询一段前缀时间内某人发的微博数量,可以离线建一棵绝对平衡的平衡树.事实上完全可以线性. #incl ...
BZOJ_DAY6???
昨天没睡好啊啊啊,真是要命,睡不着,今天状态爆炸...34题击破. 下一步目标:网络流24题,树链剖分. (洛谷比赛了好开心,希望这次能比以前强吧,嗯)
【NOIP模拟赛】超级树 DP
这个题我在考试的时候把所有的转移都想全了就是新加一个点时有I.不作为II.自己呆着III.连一个IV.连接两个子树中的两个V连接一个子树中的两个,然而V我并不会转移........ 这个题的正解体现了 ...
Android-使用ViewFlipper实现轮番切换广告栏
所谓的轮番切换广告栏,指的是下面这个东西,笔主不知道该怎么确切描述这货... 笔主没有百度研究过其他大牛是怎么实现这个功能的,在这里笔主充分发挥DIY精神,利用ViewFlipper闭门土制了一个,下 ...

转：Python网页解析：BeautifulSoup vs lxml.html

转：Python网页解析：BeautifulSoup vs lxml.html的更多相关文章

随机推荐

热门专题