四大解析器（BeautifulSoup、PyQuery、lxml、正则）性能比较

用标题中的四种方式解析网页，比较其解析速度。当然比较结果数值与电脑配置，python版本都有关系，但总体差别不会很大。

下面是我的结果，lxml xpath最快，bs4最慢

==== Python version: 3.6.5 (v3.6.5:f59c0932b4, Mar 28 2018, 17:00:18) [MSC v.1900 64 bit (AMD64)] =====

==== Total trials: 10000 =====

bs4 total time: 5.5

pq total time: 0.9

lxml (cssselect) total time: 0.8

lxml (xpath) total time: 0.5

regex total time: 1.1 (doesn't find all p)

　以下是测试代码

# -*- coding: utf-8 -*-

"""

@Datetime: 2019/3/13

@Author: Zhang Yafei

"""

import re

import sys

import time

import requests

from lxml.html import fromstring

from pyquery import PyQuery as pq

from bs4 import BeautifulSoup as bs

headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 6.3; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.106 Safari/537.36'}

def Timer():

    a = time.time()

    while True:

        c = time.time()

        yield time.time() - a

        a = c

# ################# start request #################

timer = Timer()

url = "https://www.python.org/"

html = requests.get(url, headers=headers).text

num = 10000

print('\n==== Python version: %s =====' % sys.version)

print('\n==== Total trials: %s =====' % num)

next(timer)

# ################# bs4 #########################

soup = bs(html, 'lxml')

for x in range(num):

    paragraphs = soup.findAll('p')

t = next(timer)

print('bs4 total time: %.1f' % t)

# ################ pyquery #######################

d = pq(html)

for x in range(num):

    paragraphs = d('p')

t = next(timer)

print('pq total time: %.1f' % t)

# ############### lxml css #########################

tree = fromstring(html)

for x in range(num):

    paragraphs = tree.cssselect('p')

t = next(timer)

print('lxml (cssselect) total time: %.1f' % t)

# ############## lxml xpath #######################

tree = fromstring(html)

for x in range(num):

    paragraphs = tree.xpath('.//p')

t = next(timer)

print('lxml (xpath) total time: %.1f' % t)

# ############### re ##########################

for x in range(num):

    paragraphs = re.findall('<[p ]>.*?</p>', html)

t = next(timer)

print('regex total time: %.1f (doesn\'t find all p)\n' % t)

测试代码二

# -*- coding: utf-8 -*-

"""

@Datetime: 2019/3/13

@Author: Zhang Yafei

"""

import functools

import re

import sys

import time

import requests

from bs4 import BeautifulSoup as bs

from lxml.html import fromstring

from pyquery import PyQuery as pq

def timeit(fun):

    @functools.wraps(fun)

    def wrapper(*args, **kwargs):

        start_time = time.time()

        res = fun(*args, **kwargs)

        print('运行时间为%.6f' % (time.time() - start_time))

        return res

    return wrapper

@timeit  # time1 = timeit(time)

def time1(n):

    return [i * 2 for i in range(n)]

# ################# start request #################

url = "https://www.taobao.com/"

html = requests.get(url).text

num = 10000

print('\n==== Python version: %s =====' % sys.version)

print('\n==== Total trials: %s =====' % num)

@timeit

def bs4_test():

    soup = bs(html, 'lxml')

    for x in range(num):

        paragraphs = soup.findAll('p')

    print('bs4 total time:')

@timeit

def pq_test():

    d = pq(html)

    for x in range(num):

        paragraphs = d('p')

    print('pq total time:')

@timeit

def lxml_css():

    tree = fromstring(html)

    for x in range(num):

        paragraphs = tree.cssselect('p')

    print('lxml (cssselect) total time:')

@timeit

def lxml_xpath():

    tree = fromstring(html)

    for x in range(num):

        paragraphs = tree.xpath('.//p')

    print('lxml (xpath) total time:')

@timeit

def re_test():

    for x in range(num):

        paragraphs = re.findall('<[p ]>.*?</p>', html)

    print('regex total time:')

if __name__ == '__main__':

    bs4_test()

    pq_test()

    lxml_css()

    lxml_xpath()

    re_test()

　　测试结果

==== Python version: 3.6.5 (v3.6.5:f59c0932b4, Mar 28 2018, 17:00:18) [MSC v.1900 64 bit (AMD64)] =====

==== Total trials: 10000 =====

bs4 total time:

运行时间为9.049424

pq total time:

运行时间为0.899639

lxml (cssselect) total time:

运行时间为0.841596

lxml (xpath) total time:

运行时间为0.619440

regex total time:

运行时间为1.207861

四大解析器（BeautifulSoup、PyQuery、lxml、正则）性能比较的更多相关文章

Python HTML解析器BeautifulSoup(爬虫解析器)
BeautifulSoup简介我们知道,Python拥有出色的内置HTML解析器模块——HTMLParser,然而还有一个功能更为强大的HTML或XML解析工具——BeautifulSoup(美味的 ...
转：Python网页解析：BeautifulSoup vs lxml.html
转自:http://www.cnblogs.com/rzhang/archive/2011/12/29/python-html-parsing.html Python里常用的网页解析库有Beautif ...
正则表达式、BeautifulSoup、Lxml进行性能对比
爬取方法性能使用难度安装难度正则表达式快困难简单(内置) BeautifulSoup 慢简单简单 Lxml 快简单相对困难
HTML解析器BeautifulSoup
BeautifulSoup是Python的一个库,可解析用urllib2抓取下来的HTML 1.Beautiful Soup 安装可以利用 pip 来安装,在Python程序中导入 pip inst ...
爬虫----爬虫解析库Beautifulsoup模块
一:介绍 Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库.它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式.Beautiful Soup会帮你 ...
爬虫解析库——BeautifulSoup
解析库就是在爬虫时自己制定一个规则,帮助我们抓取想要的内容时用的.常用的解析库有re模块的正则.beautifulsoup.pyquery等等.正则完全可以帮我们匹配到我们想要住区的内容,但正则比较麻 ...
爬虫解析库BeautifulSoup的一些笔记
BeautifulSoup类使用基本元素说明 Tag 标签,最基本的信息组织单元,分别是<>和</>标明开头和结尾 Name 标签的名字,<p></p ...
爬虫解析库beautifulsoup
一.介绍 Beautiful Soup是一个可以从HTML或XML文件中提取数据的python库. #安装Beautiful Soup pip install beautifulsoup4 #安装解析 ...
Beautiful Soup常见的解析器
Beautiful Soup支持Python标准库中的HTML解析器,还支持一些第三方的解析器,如果我们不安装它,则 Python 会使用 Python默认的解析器,lxml 解析器更加强大,速度更快 ...

随机推荐

Linux中删除特殊名称文件的多种方式
今日分享:我们在肉体的疾病方面花了不少钱,精神的病害方面却没有花什么,现在已经到了时候,我们应该有不平凡的学校.--<瓦尔登湖> 前言我们都知道,在linux删除一个文件可以使用rm命令 ...
【Python 08】汇率兑换2.0-1（字符串索引）
1.案例描述设计一个汇率换算程序,其功能是将人民币转换为美元,或者美元转换为人民币. 增加功能:根据输入判断是人民币还是美元,进行相应的转换计算. 2.案例分析 3.字符串两个双引号或单引号括起 ...
C#基础知识之属性
其实属性大家经常用,可以说是非常熟悉了,这里就记录一下我那天突然对属性产生的疑惑.为什么需要使用属性?属性的好处是什么? 一.什么是属性? 属性(Property) 是类(class).结构(stru ...
maven 出现错误 -source 1.5 中不支持 diamond 运算符
mvn clean package -DskipTests 出现如下错误: -source 1.5 中不支持 diamond 运算符 [ERROR] (请使用 -source 7 或更高版本以启用 d ...
UVALive - 3211 - Now or later（图论——2-SAT）
Problem UVALive - 3211 - Now or later Time Limit: 9000 mSec Problem Description Input Output Sampl ...
uWSGI、WSGI和uwsgi
WSGI wsgi server (比如uWSGI) 要和 wsgi application(比如django )交互,uwsgi需要将过来的请求转给django 处理,那么uWSGI 和 djang ...
网络安全实验室--SQL注入关
第一关万能密码:username='or '1'='1'# password=1 即可登录得到flag. 第二关最基础的注入,order by 判断字段数,然后 union selec ...
将arguments转换成数组的方法
将函数里的arguments,转换成一个真正的数组的方法,arguments是个类数组,除了有实参所组成的类似数组以外,还有自己的属性,如callee,arguments.callee就是当前正在执行 ...
Python--day02（编程语言、运行python代码、变量）
day01主要内容回顾 1.进制转换: 二进制: 1111 0101 1010 十六进制 f 5 a 2.内存分布:堆区和栈区外来人只能访问栈区的数据 ...
Linux重启命令
Linux和windows不同,linux后台运行着许多进程,所以强制关机可能会导致进程的数据丢失使系统处于不稳定的状态.甚至在有的系统中会损坏硬件设备.而在系统关机前使用shutdown命令,系统管 ...

四大解析器（BeautifulSoup、PyQuery、lxml、正则）性能比较

四大解析器（BeautifulSoup、PyQuery、lxml、正则）性能比较的更多相关文章

随机推荐

热门专题