链家网 + gevent

import gevent

from gevent import monkey

monkey.patch_all()

from gevent.queue import Queue

import time

import os

import requests

import re

start = time.perf_counter()

work = Queue()

# for i in range(1,101):

#     url = f'https://sh.fang.lianjia.com/loupan/pg{i}/'

#     print(url)

#     work.put_nowait(url)

url = 'https://sh.fang.lianjia.com/loupan/pg{}/'

url_list = (url.format(i) for i in range(1,101))

[work.put_nowait(url) for url in url_list]

info_set = set()

def spider():

    while not work.empty():

        url = work.get_nowait()

        res = requests.get(url).text

        title = re.findall('<a href="/loup.*?itle="(.*?)"'

                           '.*?<div class="resb.*?<span>(.*?)</span>'

                           '.*?<span>(.*?)</span>'

                           '.*?<span class="number">(.*?)</span>'

                           '.*?<span class="desc">&nbsp;(.*?)</span>',res,re.S)

        for i in title:

            info_set.add(i)

tasks = []

for x in range(200):

    task = gevent.spawn(spider)

    tasks.append(task)

gevent.joinall(tasks,timeout=6)

for i,n in enumerate(info_set):

    title = f'标题：  {n[0]}'

    addr = f'地区：  {n[1]}{n[2]}'

    price = f'价格：  {n[3]}{n[4]}'

    print(f"""

    {i}

    {title}

    {addr}

    {price}

    """)

    with open('./lianjie.cvs','a',encoding='utf-8') as f:

        f.writelines([title,addr,price,'\n'])

        print('写入完成')

print(time.perf_counter()-start)

链家网 + gevent的更多相关文章

分享系列--面试JAVA架构师--链家网
本月7日去了一趟链家网面试,虽然没有面上,但仍有不少收获,在此做个简单的分享,当然了主要是分享给自己,让大家见笑了.因为这次是第一次面试JAVA网站架构师相关的职位,还是有些心虚的,毕竟之前大部分时间 ...
Scrapy实战篇（一）之爬取链家网成交房源数据（上）
今天,我们就以链家网南京地区为例,来学习爬取链家网的成交房源数据. 这里推荐使用火狐浏览器,并且安装firebug和firepath两款插件,你会发现,这两款插件会给我们后续的数据提取带来很大的方便. ...
python链家网高并发异步爬虫asyncio+aiohttp+aiomysql异步存入数据
python链家网二手房异步IO爬虫,使用asyncio.aiohttp和aiomysql 很多小伙伴初学python时都会学习到爬虫,刚入门时会使用requests.urllib这些同步的库进行单线 ...
TOP100summit：【分享实录】链家网大数据平台体系构建历程
本篇文章内容来自2016年TOP100summit 链家网大数据部资深研发架构师李小龙的案例分享. 编辑:Cynthia 李小龙:链家网大数据部资深研发架构师,负责大数据工具平台化相关的工作.专注于数 ...
Python的scrapy之爬取链家网房价信息并保存到本地
因为有在北京租房的打算,于是上网浏览了一下链家网站的房价,想将他们爬取下来,并保存到本地. 先看链家网的源码..房价信息都保存在 ul 下的li 里面爬虫结构: 其中封装了一个数据库处理模 ...
使用python抓取并分析数据—链家网(requests+BeautifulSoup)（转）
本篇文章是使用python抓取数据的第一篇,使用requests+BeautifulSoup的方法对页面进行抓取和数据提取.通过使用requests库对链家网二手房列表页进行抓取,通过Beautifu ...
python链家网高并发异步爬虫and异步存入数据
python链家网二手房异步IO爬虫,使用asyncio.aiohttp和aiomysql 很多小伙伴初学python时都会学习到爬虫,刚入门时会使用requests.urllib这些同步的库进行单线 ...
Pyspider爬虫简单框架——链家网
pyspider 目录 pyspider简单介绍 pyspider的使用实战 pyspider简单介绍一个国人编写的强大的网络爬虫系统并带有强大的WebUI.采用Python语言编写,分布式架构, ...
Scrapy实战篇（九）之爬取链家网天津租房数据
以后有可能会在天津租房子,所以想将链家网上面天津的租房数据抓下来,以供分析使用. 思路: 1.以初始链接https://tj.lianjia.com/zufang/rt200600000001/?sh ...

随机推荐

王艳 201771010127《面向对象程序设计（java）》第六周学习总结
实验六继承定义与使用一:理论部分: 第五章:继承类. 1.继承:已有类来构建新类的一种机制.档定义了一个新类继承另一个类时,这个新类就继承了这个类的方法和域,同时在新类中添加新的方法和域以适应新的 ...
Java流程控制以及顺序、选择、循环结构
目录用户交互Scanner Scanner对象 hasNext()与next() hasNextLine()与nextLine() Scanner进阶用法求和与平均数顺序结构选择结构 if单选 ...
CPU上下文切换以及相关指标的理解
前言上下文切换这个词一直不理解,看了无数遍就忘了无数遍,知道看到<操作系统导论>这本书,终于有了略微的理解.这也证明了我的方向是没错的,一直认为做运维还是得理解底层的知识,不理解很多 ...
Less定义变量
1. 定义: 使用 @ 符号来定义变量 ,在Less中开头是 @ 则是变量,关于变量的命名方法,大家可以参考js中命名的规则,毕竟是做前端的,有着统一的习惯有助于我们统一风格.个人推荐变量名的命名规则 ...
简单的认识Linux
一:电脑硬件种类说明 1. 服务器的分类: <1>外观分类:机架式,塔式,刀片式/服务器. <2>尺寸分类:1u,2u,3u <3>性能分类:pc服务器,小型机服 ...
JavaSE案例-Bank
项目介绍完成基本的银行业务功能存款取款转账查询余额修改密码修改预留手机号注销账号退出任务分解: 定义三个基本类: BankTest():银行业务主程序 Bank(): 银行类,包含 ...
Android_存储之DataBase之Room
概述: Room是Google在AndroidX中提供的一个ORM(Object Relational Mapping,对象关系映射)库.它是在SQLite上提供的一个抽象层,可以使用SQLite的全 ...
Mysql基础(三)
#DML语言 /* 数据操作语言插入:insert insert into 表名(列名,...) values(值1,...); insert into 表名 set 列名=值, 列名=值,... ...
WebForms UnobtrusiveValidationMode 需要“jquery”ScriptResourceMapping 异常详细信息: System.InvalidOperationException: WebForms UnobtrusiveValidationMode 需要“jquery”ScriptResourceMapping。请添加一个名为 jquery (区分大小写)的
WebForms UnobtrusiveValidationMode 需要“jquery”ScriptResourceMapping.请添加一个名为 jquery (区分大小写)的 ScriptRes ...
WebSocket是什么，有什么作用和特点？
WebSocket是一种在单个TCP连接上进行全双工通信的协议. Websocket是基于HTTP协议的,或者说借用了HTTP的协议来完成一部分握手.具有持久化的特性特点: 保持连接状态.与HTTP ...

链家网 + gevent

链家网 + gevent的更多相关文章

随机推荐

热门专题