aiohttp的模板

 import aiohttp

 import asyncio

 import async_timeout

 from urllib.parse import urljoin,urldefrag

 root_url = 'http://python/org/'  # 开始的url

 crawled_urls,url_hub = [], [root_url]

 headers = {'user-agent': 'Opera/9.80 (X11; Linux x86_64; U; en) Presto/2.2.15 Version/10.10'}

 async def get_body(url):

     async with aiohttp.ClientSession() as session:

         try:

             with async_timeout.timeout(10): #超时时间的设定

                 async with session.get(url,headers=headers) as response:

                     if response.status == 200:

                         html = await response.text()

                         return {'error':'','html':html,'url':url}

                     else:

                         return {'error':response.status,'html':'','url':url}

         except Exception as err:

             return {'error':response.status,'html':'','url':url}

 async def handle_task(task_id,work_queue):

     while not work_queue.empty():

         queue_url = await work_queue.get()

         if not queue_url in crawled_urls:

             body = await get_body(queue_url)

             if not body['error']:

                 crawled_urls.append(queue_url)

                 parse(body)

             else:

                 print('{}爬取失败'.format(queue_url))

 #解析返回的数据

 def parse(body):

     pass

 def remove_fragment(url):

     pure_url, frag = urldefrag(url)

     return pure_url

 #解析html，拼接新的url

 def get_urls(html):

     new_urls = [url.split('"')[0] for url in str(html).replace("'", '"').split('href="')[1:]]

     return [urljoin(root_url, remove_fragment(new_url)) for new_url in new_urls]

 if __name__ == '__main__':

     q = asyncio.Queue()  #初始化一个异步的队列

     [q.put_nowait(url) for url in url_hub]  #从初始的url队列中遍历，把url放入到队列中

     loop = asyncio.get_event_loop()

     tasks = [handle_task(task_id, q) for task_id in range(3)]  #3个并发

     loop.run_until_complete(asyncio.wait(tasks))

     loop.close()

     for u in crawled_urls:

         print(u)

     print('-' * 30)

     print(len(crawled_urls))

aiohttp的模板的更多相关文章

PYTHON --WebAPP项目转载(廖雪峰) -- Day 1 -- 搭建开发环境
Day 1 - 搭建开发环境搭建开发环境首先,确认系统安装的Python版本是3.5.x: $ python3 --version Python 3.5.1 然后,用pip安装开发Web Ap ...
aiohttp爬虫的模板，类的形式
import asyncio import aiohttp import async_timeout from lxml import html from timeit import default_ ...
python3异步爬虫 ——aiohttp模板使用
一.简单使用和讲解 import aiohttp import asyncio async def fetch(client): async with client.get('http://httpb ...
aiohttp笔记
目录简介采集模板一批,一次性采集动态添加任务动态添加任务,封装成类简介 aiohttp需要python3.5.3以及更高的版本,它不但能做客户端爬虫,也能做服务器端,利用asyncio,协 ...
python web开发框架模板 MVC
我是跟着廖雪峰老师学习的,对于我这样的纯小白来说,跟着他的网站学习,简直是被妈妈抱在怀里一样无忧无虑,这样的学习本来没有记录下来的必要,但是由于我的粗心大意,经常会出现一些错误,所以我决定把这些错误记 ...
Jade模板引擎让你飞
写在前面:现在jade改名成pug了一.安装 npm install jade 二.基本使用 1.简单使用 p hello jade! 渲染后: <p>hello jade!</p ...
ABP入门系列（2）——通过模板创建MAP版本项目
一.从官网创建模板项目进入官网下载模板项目依次按下图选择: 输入验证码开始下载下载提示: 二.启动项目使用VS2015打开项目,还原Nuget包: 设置以Web结尾的项目,设置为启动项目: 打 ...
CMS模板应用调研问卷
截止目前,已经有数十家网站与我们合作,进行了MIP化改造,在搜索结果页也能看到"闪电标"的出现.除了改造方面的问题,MIP项目组被问到最多的就是:我用了wordpress,我用了织 ...
PHP-自定义模板-学习笔记
1. 开始这几天,看了李炎恢老师的<PHP第二季度视频>中的“章节7:创建TPL自定义模板”,做一个学习笔记,通过绘制架构图.UML类图和思维导图,来对加深理解. 2. 整体架构图 ...

随机推荐

C# 日期和时间的字符串表示形式转换为其等效的DateTime(stringToDateTime)
一. 标准的日期和时间字符串转换将日期和时间的字符串表示形式转换为其等效的DateTime对象是开发中很常见的类型转换,我们最常使用的方式是: // 如果s为null,抛出ArgumentNullE ...
HTML学习---HTML状态码
301 Moved Permanently 永久移动.请求的资源已被永久的移动到新URI,返回信息会包括新的URI,浏览器会自动定向到新URI.今后任何新的请求都应使用新的URI代替302 Found ...
25个最佳的SSH命令
参考文献地址(SSH原理与运用(一):远程登录): http://www.ruanyifeng.com/blog/2011/12/ssh_remote_login.html 参考文献地址(SSH原理与 ...
Oracle与EntityFramework(EF)的一些事情
概要 Oracle 和EF 一起用的时候总会有各种问题,这里总结一下解决办法. 模式 Schema 用过Oracle的人应该知道,其实Oracle的用户名一般就是它的模式名称,如果你在用databas ...
December 23rd 2016 Week 52nd Friday
Life is a horse, and either you ride it or it rides you. 人生像一匹马,你不驾驭它,它便驾驭你. It is the same meaning ...
开闭原则（OCP）
开闭原则具有理想主义的色彩,它是面向对象设计的终极目标.因此,针对开闭原则的实现方法,一直都有面向对象设计的大师费尽心机,研究开闭原则的实现方式.后面要提到的里氏代换原则(LSP).依赖倒转原则(DI ...
【Win10+eclipse+MinGW+QT安装教程】已有eclipse环境下配置QT插件出错详解
(纪念一下装了一整天濒临绝望的自己[/doge]) (以下所有下载项一律使用32位) step1:下载安装eclipse.适配的jdk.MinGW和QT 1.下载32位eclipse for c++以 ...
Yahoo！团队经验：网站性能优化的34条黄金法则
英文原文:http://developer.yahoo.com/performance/rules.html 1.尽量减少HTTP请求次数 (1)合并文件就是通过把所有的脚本放到一个文件中来减少HTT ...
python 中的pipe
from multiprocessing import Process,Queue,Pipe import os def f(q): # q.send([42,None,'hello']) print ...
FP又称为Monadic Programming
什么是Monad? trait Monad[+T] { def flatMap[U]( f : (T) => Monad[U] ) : Monad[U] def unit(value : B) ...

aiohttp的模板

aiohttp的模板的更多相关文章

随机推荐

热门专题