aiohttp分流处理

# -*- coding: utf-8 -*-

# @Time : 2018/12/26 9:55 PM

# @Author : cxa

# @Software: PyCharm

import asyncio

import aiohttp

from db.mongohelper import save_data

import hashlib

import pathlib

import ujson

from logger.log import crawler

from utils import proxy_helper

from retrying import retry

from itertools import islice

try:

    import uvloop

    asyncio.set_event_loop_policy(uvloop.EventLoopPolicy())

except ImportError:

    pass

sem = asyncio.Semaphore(1000)

url = "https://xxx.xxx.com"

@retry(stop_max_attempt_number=5)

def get_proxy():

    proxy = proxy_helper.get_proxy()

    host = proxy.get('ip')

    port = proxy.get('port')

    ip = f"http://{host}:{port}"

    return ip

async def fetch(item, session, proxy, retry_index=0):

    try:

        name = item

        sf = get_md5(name)

        data = {"kw": name, "signinfo": sf}

        async with session.post(url, data=data, proxy=proxy, verify_ssl=False) as req:

            res_status = req.status

            if res_status == 200:

                data = ujson.loads(await req.text())

                searchdata = data.get("searchResult")

                if searchdata:

                    await save_data(searchdata)

                else:

                    crawler.info(f'<search_name: {name}>, data: {data},')

    except IndexError as e:

        print(f"<出错时候的数据:{seq}>,<原因: e>")

    except Exception as e:

        data = None

        crawler.error(f"<Error: {url} {str(e)}>")

    if not data:

        crawler.info(f'<Retry url: {url}>, Retry times: {retry_index+1}')

        retry_index += 1

        proxy = get_proxy()

        return await fetch(item, session, proxy, retry_index)

async def bound_fetch(item, session, proxy):

    async with sem:

        await fetch(item, session, proxy)

async def print_when_done(tasks):

    [await _ for _ in limited_as_completed(tasks, 2000)]

async def run(data):

    async with aiohttp.ClientSession() as session:

        proxy = get_proxy()

        coros = (asyncio.ensure_future(bound_fetch(item, session, proxy)) for item in data)

        await print_when_done(coros)

def limited_as_completed(coros, limit):

    futures = [

        asyncio.ensure_future(c)

        for c in islice(coros, 0, limit)

    ]

    async def first_to_finish():

        while True:

            await asyncio.sleep(0.01)

            for f in futures:

                if f.done():

                    futures.remove(f)

                    try:

                        newf = next(coros)

                        futures.append(

                            asyncio.ensure_future(newf))

                    except StopIteration as e:

                        pass

                    return f.result()

    while len(futures) > 0:

        yield first_to_finish()

def get_use_list():

    fname = pathlib.Path.joinpath(pathlib.Path.cwd(), "namelist.txt")

    with open(fname, encoding='utf-8') as fs:

        data = (i.strip() for i in fs.readlines())

    return data

def get_md5(key):

    m = hashlib.md5()

    m.update(f'{key}0jjj890j0369dce05f9'.encode('utf-8'))

    a = m.hexdigest()

    return a

if __name__ == '__main__':

    crawler.info("开始下载")

    data = get_use_list()

    loop = asyncio.get_event_loop()

    loop.run_until_complete(run(data))

    loop.close()

aiohttp分流处理的更多相关文章

【转】aiohttp 源码解析之 request 的处理过程
[转自太阳尚远的博客:http://blog.yeqianfeng.me/2016/04/01/python-yield-expression/] 使用过 python 的 aiohttp 第三方库 ...
aiohttp使用队列
获取百度的搜索结果,然后把百度的长链接,获取到真实的url import time import aiofiles import aiohttp import asyncio from lxml im ...
aiohttp AppRunner的用法
参考廖雪峰的aiohttp教程,会出现两个DeprecationWarning, loop argument is deprecated Application.make_handler(...) i ...
python requests与aiohttp 速度对比
环境:centos7 python3.6 测试网址:www.bai.com 测试方式:抓取百度100次结果: aio: 10.702147483825684srequests: 12.4046785 ...
利用aiohttp制作异步爬虫
asyncio可以实现单线程并发IO操作,是Python中常用的异步处理模块.关于asyncio模块的介绍,笔者会在后续的文章中加以介绍,本文将会讲述一个基于asyncio实现的HTTP框架--a ...
aiohttp的笔记之TCPConnector
TCPConnector维持链接池,限制并行连接的总量,当池满了,有请求退出再加入新请求.默认是100,limit=0的时候是无限制 1.use_dns_cache: 使用内部DNS映射缓存用以查询D ...
Python中syncio和aiohttp
CPython 解释器本身就不是线程安全的,因此有全局解释器锁(GIL),一次只允许使用一个线程执行 Python 字节码.因此,一个 Python 进程通常不能同时使用多个 CPU 核心.然而,标准 ...
aiohttp文档翻译-server(一)
web server 快速入门运行一个简单的web server 为了实现web server, 首先需要实现request handler 一个 request handler 必须是一个coro ...
python链家网高并发异步爬虫asyncio+aiohttp+aiomysql异步存入数据
python链家网二手房异步IO爬虫,使用asyncio.aiohttp和aiomysql 很多小伙伴初学python时都会学习到爬虫,刚入门时会使用requests.urllib这些同步的库进行单线 ...

随机推荐

java freemarker导出word时添加或勾选复选框
最近项目导出word碰到一个需求,要求根据数据动态的决定word里的复选框是否勾选, 公司导出word用的是freemarker,相比较其他技术,freemarker可以很容易的控制输出样式, 在wo ...
【AGC010D】Decrementing
Solution 日常博弈论做不出来. 首先,数值全部为1的局面先手必败. 在接下来的过程中,我们只关注那些大于1的数值. 按照官方题解的思路,首先想一个简化版的问题:没有除的操作,其余相同.那么局面 ...
luogu3203 弹飞绵羊 (LCT)
新建一个N+1的点,飞出去的连到这个上,记size,每次统计x和N+1的链长就可以. 别忘了编号是从0开始的 #include<cstdio> #include<cstring> ...
做一个懒COCOS2D-X程序猿(一)停止手打所有cpp文件到android.mk
前言:”懒”在这里当然不是贬义词,而是追求高效,拒绝重复劳动的代名词!做一个懒COCOS2D-X程序猿的系列文章将教会大家在工作中如何偷懒,文章篇幅大多较短,有的甚至只是几行代码,争取把懒发挥到极致! ...
【洛谷P3469】BLO
题目大意:给定 N 个点,M 条边的联通无向图,求出对于每个点来说,将与这个点相连的所有边都去掉后,会少多少个联通的点对 (x,y). 题解:连通性问题从 DFS 树的角度进行考虑.对于 DFS 树当 ...
NO.8:绝不在构造或者析构过程中调用virtual函数
在构造和析构执行期间不要调用virtual函数,因为这类调用从不会下降至derived class(比起当前执行构造函数和析构函数) 如果在base class 构造函数或者析构函数调用virtual ...
获取Field成员变量类
位于java.lang.reflect.Field包中 getModifiers() 成员变量修饰符(public.private) getName() 成员变量名字 getType() 成员变量类型 ...
音乐播放和视频播放--pyglet（一）
最近,开始学习pyglet库.通过几天的学习,深刻的体会了python第三方模块的强大.我一直想做多媒体开发,曾经尝试用C语言进行编写,但是C语言在GUI开发上难度较大,要写一个界面出来得码很多冗余的 ...
2018acm-icpc西安邀请赛后记
第一次参加icpc的邀请赛,有一点小激动,深知大一弱队实力弱,赛前给队友的目标就是拿块铜,不打铁. 热身赛因为没有用过pc^2,codeblocks又用不习惯的原因,开始调工程调了很久,差一点拿到A题 ...
Django多域名配置之Django-hosts插件的使用
使用场景: Django中有两个app,如果通过域名来访问,可以使用www.domain.com/a.www.domain.com/b来访问.这样就显得有点LowB了.如果我想通过a.domain.c ...

aiohttp分流处理

aiohttp分流处理的更多相关文章

随机推荐

热门专题