链家网爬虫同步VS异步执行时间对比

异步执行时间

import time

import asyncio

import aiohttp

from lxml import etree

start_time = time.time()

async def get_url(url):

    session = aiohttp.ClientSession()

    response = await session.get(url)

    result = await response.text()

    terr = etree.HTML(result)

    ret = terr.xpath('//*[@id="content"]/div[1]/ul/li')

    for li in ret:

        title = li.xpath('.//div[@class="title"]//text()')

        print(title)

async def get_html():

    result = await get_url(url)

    print(result)

if __name__ == '__main__':

    url = "https://sz.lianjia.com/ershoufang/pg{}"

    tasks = [asyncio.ensure_future(get_url(url.format(rl))) for rl in range(1,30)]  # 创建task对象

    loop = asyncio.get_event_loop() # 创建事件循环对象

    loop.run_until_complete(asyncio.wait(tasks)) # 将所有task对象注册到事件循环对象中

    end_time = time.time()

    print("执行时间{}".format(end_time - start_time))  # 执行时间6.241659641265869

同步执行时间

import time

import requests

from lxml import etree

headers = {

'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/77.0.3865.120 Safari/537.36'

}

start_time = time.time()

def get_url():

    url = "https://sz.lianjia.com/ershoufang/pg{}"

    for i in range(1,30):

        urli = url.format(i)

        result = requests.get(urli, headers=headers).text

        terr = etree.HTML(result)

        ret = terr.xpath('//*[@id="content"]/div[1]/ul/li')

        for li in ret:

            title = li.xpath('.//div[@class="title"]//text()')

            print(title)

get_url()

end_time = time.time()

print("执行时间{}".format(end_time - start_time))

# 执行时间82.57950687408447

链家网爬虫同步VS异步执行时间对比的更多相关文章

python链家网高并发异步爬虫asyncio+aiohttp+aiomysql异步存入数据
python链家网二手房异步IO爬虫,使用asyncio.aiohttp和aiomysql 很多小伙伴初学python时都会学习到爬虫,刚入门时会使用requests.urllib这些同步的库进行单线 ...
python链家网高并发异步爬虫and异步存入数据
python链家网二手房异步IO爬虫,使用asyncio.aiohttp和aiomysql 很多小伙伴初学python时都会学习到爬虫,刚入门时会使用requests.urllib这些同步的库进行单线 ...
Pyspider爬虫简单框架——链家网
pyspider 目录 pyspider简单介绍 pyspider的使用实战 pyspider简单介绍一个国人编写的强大的网络爬虫系统并带有强大的WebUI.采用Python语言编写,分布式架构, ...
Python的scrapy之爬取链家网房价信息并保存到本地
因为有在北京租房的打算,于是上网浏览了一下链家网站的房价,想将他们爬取下来,并保存到本地. 先看链家网的源码..房价信息都保存在 ul 下的li 里面爬虫结构: 其中封装了一个数据库处理模 ...
分享系列--面试JAVA架构师--链家网
本月7日去了一趟链家网面试,虽然没有面上,但仍有不少收获,在此做个简单的分享,当然了主要是分享给自己,让大家见笑了.因为这次是第一次面试JAVA网站架构师相关的职位,还是有些心虚的,毕竟之前大部分时间 ...
Scrapy实战篇（一）之爬取链家网成交房源数据（上）
今天,我们就以链家网南京地区为例,来学习爬取链家网的成交房源数据. 这里推荐使用火狐浏览器,并且安装firebug和firepath两款插件,你会发现,这两款插件会给我们后续的数据提取带来很大的方便. ...
TOP100summit：【分享实录】链家网大数据平台体系构建历程
本篇文章内容来自2016年TOP100summit 链家网大数据部资深研发架构师李小龙的案例分享. 编辑:Cynthia 李小龙:链家网大数据部资深研发架构师,负责大数据工具平台化相关的工作.专注于数 ...
使用python抓取并分析数据—链家网(requests+BeautifulSoup)（转）
本篇文章是使用python抓取数据的第一篇,使用requests+BeautifulSoup的方法对页面进行抓取和数据提取.通过使用requests库对链家网二手房列表页进行抓取,通过Beautifu ...
Scrapy实战篇（九）之爬取链家网天津租房数据
以后有可能会在天津租房子,所以想将链家网上面天津的租房数据抓下来,以供分析使用. 思路: 1.以初始链接https://tj.lianjia.com/zufang/rt200600000001/?sh ...

随机推荐

flask/app.py-add_url_rule源码分析
之前分析route方法的时候,可以看到中间会调用add_url_rule方法,add_url_rule方法和route方法一样属于Flask这个类的. add_url_rule方法主要用来连接url规 ...
jQuery遍历(3)
上期我们讲了遍历的祖先.后代和同胞的问题,现在我们讲讲遍历遍历过滤三个最基本的过滤方法是:first(), last() 和 eq(),它们允许您基于其在一组元素中的位置来选择一个特定的元素.其他过 ...
【日语】日语N5学习
副词与连接词 ~から: 从-(表示时间.场所起点) ~まで: 到-(表示时间.场所终点) と: 和(并列时用) えーと: 嗯いっしょに: 一起ちょっと: 一点儿いつも: 经常.总是ときどき: ...
微信小程序错误readFile:fail parameter error: parameter.filePath should be String instead of Undefined;
我是在使用camera组件时遇到的该问题原因是未保存文件路径(微信使用摄像头拍照后会把图片保存在一个临时的路径,所以你需要自己定义一个变量来存这个路径,以备下次使用该变量去访问文件) 所以加上你需要 ...
mycat-rule
<?xml version="1.0" encoding="UTF-8"?> <!-- - - Licensed under the Apac ...
剖析.o文件ELF组成
ELF文件结构组成 ①总共13个节 ②每个节都有一个编号.从ELF头开始编号,编号从0开始,编号的作用就是用来索引(找到)不同节的. ③每个.o的都是这样的结构.链接时要做的就是,将ELF格式的.o全 ...
Pyspark笔记一
1. pyspark读csv文件后无法显示中文 #pyspark读取csv格式时,不能显示中文 df = spark.read.csv(r"hdfs://mymaster:8020/user ...
并发编程.md
操作系统基础人机矛盾: CPU利用率低磁带存储+批处理:降低数据的读取时间,提高CPU的利用率多道操作系统------在一个任务遇到IO的时候主动让出CPU,给其他任务使用由操作系统完成切换 ...
windows虚拟机性能调整
在通过KVM安装WindowsXP/2003/7/2008操作系统后,由于默认的磁盘驱动(IDE)性能与网卡驱动(RTL8139100M)的性能都极其低下,需要调整,通过加载Redhatvirtio驱 ...
SpringBoot之多数据源动态切换数据源
原文:https://www.jianshu.com/p/cac4759b2684 实现 1.建库建表首先,我们在本地新建三个数据库名分别为master,slave1,slave2,我们的目前就是写 ...

链家网爬虫同步VS异步执行时间对比

异步执行时间

同步执行时间

链家网爬虫同步VS异步执行时间对比的更多相关文章

随机推荐

热门专题