链家网 + gevent

import gevent

from gevent import monkey

monkey.patch_all()

from gevent.queue import Queue

import time

import os

import requests

import re

start = time.perf_counter()

work = Queue()

# for i in range(1,101):

#     url = f'https://sh.fang.lianjia.com/loupan/pg{i}/'

#     print(url)

#     work.put_nowait(url)

url = 'https://sh.fang.lianjia.com/loupan/pg{}/'

url_list = (url.format(i) for i in range(1,101))

[work.put_nowait(url) for url in url_list]

info_set = set()

def spider():

    while not work.empty():

        url = work.get_nowait()

        res = requests.get(url).text

        title = re.findall('<a href="/loup.*?itle="(.*?)"'

                           '.*?<div class="resb.*?<span>(.*?)</span>'

                           '.*?<span>(.*?)</span>'

                           '.*?<span class="number">(.*?)</span>'

                           '.*?<span class="desc">&nbsp;(.*?)</span>',res,re.S)

        for i in title:

            info_set.add(i)

tasks = []

for x in range(200):

    task = gevent.spawn(spider)

    tasks.append(task)

gevent.joinall(tasks,timeout=6)

for i,n in enumerate(info_set):

    title = f'标题：  {n[0]}'

    addr = f'地区：  {n[1]}{n[2]}'

    price = f'价格：  {n[3]}{n[4]}'

    print(f"""

    {i}

    {title}

    {addr}

    {price}

    """)

    with open('./lianjie.cvs','a',encoding='utf-8') as f:

        f.writelines([title,addr,price,'\n'])

        print('写入完成')

print(time.perf_counter()-start)

链家网 + gevent的更多相关文章

分享系列--面试JAVA架构师--链家网
本月7日去了一趟链家网面试,虽然没有面上,但仍有不少收获,在此做个简单的分享,当然了主要是分享给自己,让大家见笑了.因为这次是第一次面试JAVA网站架构师相关的职位,还是有些心虚的,毕竟之前大部分时间 ...
Scrapy实战篇（一）之爬取链家网成交房源数据（上）
今天,我们就以链家网南京地区为例,来学习爬取链家网的成交房源数据. 这里推荐使用火狐浏览器,并且安装firebug和firepath两款插件,你会发现,这两款插件会给我们后续的数据提取带来很大的方便. ...
python链家网高并发异步爬虫asyncio+aiohttp+aiomysql异步存入数据
python链家网二手房异步IO爬虫,使用asyncio.aiohttp和aiomysql 很多小伙伴初学python时都会学习到爬虫,刚入门时会使用requests.urllib这些同步的库进行单线 ...
TOP100summit：【分享实录】链家网大数据平台体系构建历程
本篇文章内容来自2016年TOP100summit 链家网大数据部资深研发架构师李小龙的案例分享. 编辑:Cynthia 李小龙:链家网大数据部资深研发架构师,负责大数据工具平台化相关的工作.专注于数 ...
Python的scrapy之爬取链家网房价信息并保存到本地
因为有在北京租房的打算,于是上网浏览了一下链家网站的房价,想将他们爬取下来,并保存到本地. 先看链家网的源码..房价信息都保存在 ul 下的li 里面爬虫结构: 其中封装了一个数据库处理模 ...
使用python抓取并分析数据—链家网(requests+BeautifulSoup)（转）
本篇文章是使用python抓取数据的第一篇,使用requests+BeautifulSoup的方法对页面进行抓取和数据提取.通过使用requests库对链家网二手房列表页进行抓取,通过Beautifu ...
python链家网高并发异步爬虫and异步存入数据
python链家网二手房异步IO爬虫,使用asyncio.aiohttp和aiomysql 很多小伙伴初学python时都会学习到爬虫,刚入门时会使用requests.urllib这些同步的库进行单线 ...
Pyspider爬虫简单框架——链家网
pyspider 目录 pyspider简单介绍 pyspider的使用实战 pyspider简单介绍一个国人编写的强大的网络爬虫系统并带有强大的WebUI.采用Python语言编写,分布式架构, ...
Scrapy实战篇（九）之爬取链家网天津租房数据
以后有可能会在天津租房子,所以想将链家网上面天津的租房数据抓下来,以供分析使用. 思路: 1.以初始链接https://tj.lianjia.com/zufang/rt200600000001/?sh ...

随机推荐

11.1 Go Http
11.0 Go Http http客户端 package main import ( "fmt" "net/http" "net/http/httpu ...
vue打包时semver.js版本报错
如图,报错semver.js版本不正确,解决思路是在node_modules/semver.js内,忽略版本检查 ''' // if ANY of the sets match ALL of its ...
Keyboard Shortcuts Reference
Sublime Text 3快捷键 Ctrl + Shift + P 打开命令面板 Ctrl + P 搜索项目中的文件 Ctrl + G 跳到第几行 Ctrl + W 关闭当前打开文件 Ctrl + ...
快服务常见TOP3审核雷区，再不过审就要崩溃啦！
仰天大笑出门去,审核提交很神气. 垂死病中惊坐起,突然驳回伤不起. 江州司马青衫湿,重新修改苦自知. 梦里花落知多少,回复马上就改好. 审批被驳回可能是最常见的令开发者头大的问题了,明明看起来&quo ...
用 CSS Grid 布局制作一个响应式柱状图
最新一段时间比较喜欢玩弄图表,出于好奇,我想找出比较好的用 CSS 制作图表的方案.开始学习网上开源图表库,它对我学习新的和不熟悉的前端技术很有帮助,比如这个:CSS Grid. 今天和大家分享我学到 ...
2020由浅入深最强Java面试题
1.String,StringBuffer和StringBuilder有什么区别? String是字符串常量,不可变对象,每次对String修改都等同于生成了一个新的String象,然后将指针 ...
[COCOS2DX-LUA]0-004.cocos2dx中的DrawNode的init的方法问题
1.诱因近期,项目接入了Bugly, 上报了一些平常测试不出来,或者很难重现的bug,这类bug非常难排查.原因有二,第一,问题无法重现,第二,修改了无法立即验证结果.有一个问题困恼了我很久,就是一 ...
[转]从 Apple TV 看电视的进化
电视被许多人吐槽为 “几十年没变过的东西”,因此苹果也被寄予厚望能改变这件事物.可惜的是,这种期望在空中飘了这么久,苹果也没玩出多少花样,直到这次发布会 Apple TV 才有了一些值得期待的改进. ...
unicode、encode、decode
1.encode与decode:unicode经过encode -> utf-8,反过来为decode. 爬虫读取网页内容和pandas读取csv时,会把读取到的文字内容转成unicode,当我 ...
设计Weekday类代码参考
#include <iostream> using namespace std; class Weekday { private: int num; public: void SetDay ...

链家网 + gevent

链家网 + gevent的更多相关文章

随机推荐

热门专题