使用python网络库下载

下载1000次网页资源

1，普通循环方式下载1000次，非常慢

#!/usr/bin/python

# -*- coding: utf-8 -*-

import sys

import os

import time

import urllib

import urllib2

total_times = 1000

def worker(url):

        try:

                f = urllib2.urlopen(url,timeout=10800)

                body = f.read()

        except:

                print sys.exc_info()

                return 0

        return 1

if __name__ == "__main__":

        for i in range(total_times):

                url = "http://web.kuaipan.cn/static/images/pc.png"

                worker(url)

#root:~/test # time ./c.py

#real    4m6.700s

#user    0m1.192s

#sys     0m1.736s

2，使用进程池下载，有点慢

#!/usr/bin/python

# -*- coding: utf-8 -*-

import sys

import os

import time

import urllib

import urllib2

import multiprocessing

total_times = 1000

def worker(url):

        try:

                f = urllib2.urlopen(url,timeout=10800)

                body = f.read()

        except:

                print sys.exc_info()

                return 0

        return 1

if __name__ == "__main__":

        pool_size = multiprocessing.cpu_count() * 2

        pool = multiprocessing.Pool(processes=pool_size)

        for i in range(total_times):

                url = "http://web.kuaipan.cn/static/images/pc.png"

                pool.apply_async(worker, (url,))

        pool.close()

        pool.join()

#root:~/test # time ./pc.py

#real    1m43.668s

#user    0m1.480s

#sys     0m1.628s

3，使用twisted网络库，同样发起1000次请求，耗时减少为15s左右，性能提升很多，很快

#!/usr/bin/python

from sys import argv

from pprint import pformat

#from twisted.internet.task import react

from twisted.internet import reactor

from twisted.web.client import Agent, readBody

from twisted.web.http_headers import Headers

total_times = 1000

times = 0

def cbRequest(response):

    #print 'Response version:', response.version

    #print 'Response code:', response.code

    #print 'Response phrase:', response.phrase

    #print 'Response headers:'

    #print pformat(list(response.headers.getAllRawHeaders()))

    d = readBody(response)

    d.addCallback(cbBody)

    return d

def cbBody(body):

    #print 'Response body:'

    #print body

    data = body

def cbShutdown(ignored):

    global times

    times = times + 1

    if total_times - 1 < times:

        reactor.stop()

def curl(url):

    agent = Agent(reactor)

    d = agent.request(

        'GET', url,

        Headers({'User-Agent': ['Twisted Web Client Example']}),

        None)

    d.addCallback(cbRequest)

    d.addBoth(cbShutdown)

    return d

if __name__ == '__main__':

    for i in range(total_times):

        curl("http://web.kuaipan.cn/static/images/pc.png")

    reactor.run()

#root:~/test # time ./tc.py

#real    0m15.480s

#user    0m3.596s

#sys     0m0.720s

4，使用twisted网络库长连接，耗时也是很少，很快

#!/usr/bin/python

from sys import argv

from pprint import pformat

#from twisted.internet.task import react

from twisted.internet import reactor

from twisted.web.http_headers import Headers

from twisted.internet import reactor

from twisted.internet.defer import Deferred, DeferredList

from twisted.internet.protocol import Protocol

from twisted.web.client import Agent, HTTPConnectionPool

total_times = 1000

times = 0

class IgnoreBody(Protocol):

    def __init__(self, deferred):

        self.deferred = deferred

    def dataReceived(self, bytes):

        pass

    def connectionLost(self, reason):

        self.deferred.callback(None)

def cbRequest(response):

    #print 'Response code:', response.code

    finished = Deferred()

    response.deliverBody(IgnoreBody(finished))

    return finished

pool = HTTPConnectionPool(reactor)

agent = Agent(reactor, pool=pool)

def requestGet(url):

    d = agent.request('GET', url)

    d.addCallback(cbRequest)

    return d

def cbShutdown(ignored):

    global times

    times = times + 1

    if total_times - 1 < times:

        reactor.stop()

def curl(url):

    agent = Agent(reactor)

    d = agent.request(

        'GET', url,

        Headers({'User-Agent': ['Twisted Web Client Example']}),

        None)

    d.addCallback(cbRequest)

    d.addBoth(cbShutdown)

    return d

for i in range(total_times):

    curl("http://web.kuaipan.cn/static/images/pc.png")

reactor.run()

#root:~/test # time ./tpc.py

#real    0m12.817s

#user    0m3.508s

#sys     0m0.528s

golang使用循环下载方式，和python使用循环下载方式耗时差不多，4分钟时间，瓶颈应该在网络

package main

import (

    "fmt"

    "net/http"

    "io/ioutil"

)

var totaltimes = 

func worker(url string) {

   response, err := http.Get(url)

   if err != nil {

       return

   }

   defer response.Body.Close()

   body, _ := ioutil.ReadAll(response.Body)

   fmt.Println(len(body))

}

func main() {

    for i := ; i < totaltimes;i ++ {

          worker("http://web.kuaipan.cn/static/images/pc.png")

    }

}

//root:~/test # time ./got > goresult

//

//real    4m45.257s

//user    0m0.628s

//sys     0m0.632s

golang使用协程池方式模拟下载1000次，性能也要差很多（而且容易出现网络错误,最近出的go version go1.2rc4 linux/amd64要好一点 ,go1.1问题很多）

package main

import (

    "fmt"

    "net/http"

    "io/ioutil"

    "sync"

)

var totaltimes =

var poolsize = 

func worker(linkChan chan string, wg *sync.WaitGroup) {

   // Decreasing internal counter for wait-group as soon as goroutine finishes

   defer wg.Done()

   for url := range linkChan {

       // Analyze value and do the job here

       response, err := http.Get(url)

       if err != nil {

           return

       }

       defer response.Body.Close()

       body, _ := ioutil.ReadAll(response.Body)

       fmt.Println(len(body))

       //fmt.Println("Resp code", response.StatusCode)

   }

}

func main() {

    var i int

    lCh := make(chan string)

    wg := new(sync.WaitGroup)

    // Adding routines to workgroup and running then

    for i := ; i < poolsize; i++ {

        wg.Add()

        go worker(lCh, wg)

    }

    for i = ; i < totaltimes;i ++ {

          lCh <- "http://web.kuaipan.cn/static/images/pc.png"

    }

    close(lCh)

    // Waiting for all goroutines to finish (otherwise they die as main routine dies)

    wg.Wait()

}

//root:~/test # time ./gotest > goresult

//

//real    0m25.250s

//user    0m0.772s

//sys     0m0.380s

twisted支持定时器，我们可以用来动态添加任务

from twisted.web.client import getPage

from twisted.internet import reactor

class Getter(object):

    def __init__(self):

        self._sequence = 0

        self._results = []

        self._errors = []

    def add(self, url):

        d = getPage(url)

        d.addCallbacks(self._on_success, self._on_error)

        d.addCallback(self._on_finish)

        self._sequence += 1

    def _on_finish(self, *narg):

        self._sequence -= 1

        print len(self._results), len(self._errors)

     #   if not self._sequence:

     #       reactor.stop()

    _on_success = lambda self, *res: self._results.append(res)

    _on_error = lambda self, *err: self._errors.append(err)

    def run(self):

        reactor.run()

        return self._results, self._errors

def jobtimer():

    for url in ('http://www.google.com', 'http://www.yahoo.com', 'http://www.baidu.com'):

        g.add(url)

    reactor.callLater(1,jobtimer)

reactor.callLater(2,jobtimer) #定时添加任务

g = Getter()

results, errors = g.run()

#print len(results)

#print len(errors)

使用python网络库下载的更多相关文章

基于协程的Python网络库gevent
import gevent def test1(): print 12 gevent.sleep(0) print 34 def test2(): print 56 gevent.sleep(0) p ...
Python网络爬虫 - 下载图片
下载博客园的logo from urllib.request import urlretrieve from urllib.request import urlopen from bs4 import ...
python 第三方库下载
C:\Python27\Scripts 路径下: easy_install.exe: C:\Python27\Scripts>easy_install.exe pycrypto pip.exe: ...
python 第三方库下载地址
http://www.lfd.uci.edu/~gohlke/pythonlibs/#lxml
python基于协程的网络库gevent、eventlet
python网络库也有了基于协程的实现,比较著名的是 gevent.eventlet 它两之间的关系可以参照 Comparing gevent to eventlet, 本文主要简单介绍一下event ...
python常用库
本文由伯乐在线 - 艾凌风翻译,Namco 校稿.未经许可,禁止转载!英文出处:vinta.欢迎加入翻译组. Awesome Python ,这又是一个 Awesome XXX 系列的资源整理,由 ...
156个Python网络爬虫资源
本列表包含Python网页抓取和数据处理相关的库. 网络相关通用 urllib - 网络库(标准库) requests - 网络库 grab - 网络库(基于pycurl) pycurl - 网络库 ...
Python常用库大全
环境管理管理 Python 版本和环境的工具 p – 非常简单的交互式 python 版本管理工具. pyenv – 简单的 Python 版本管理工具. Vex – 可以在虚拟环境中执行命令. v ...
python的库小全
环境管理管理 Python 版本和环境的工具 p – 非常简单的交互式 python 版本管理工具. pyenv – 简单的 Python 版本管理工具. Vex – 可以在虚拟环境中执行命令. v ...

随机推荐

Infragistics的介绍以及在ASP.net中使用的总结
Infragistics系列控件是一套很好,很强大的控件,.感觉很好..现在自己做项目也用..却发现网上没有一套中文的教程,中文资料都很少..在这里就把自己的研究心得写下来... 首先安装,一步一步装 ...
C# XML与Json之间相互转换
XML转换为Json字符串在代码中预定义的一个xml字符串,如下: string xml = @"<?xml version=""1.0"" ...
apache hide index.php
<Directory "D:/usr/local/www"> AllowOverride all Options +FollowSymLinks +SymL ...
Hive Map 端OOM 异常
怪异现象:数据量不大,且不是Reduce端OOM,是Map端OOM Map Task运行的时候数据流中包含了非法字符例如:EOF.NOP等东西,导致BufferedReader读取和StreamDec ...
Android 中延迟执行的小结
一.开启新线程 new Thread(new Runnable(){ public void run(){ Thread.sleep(XXXX); handler.sendMessage();---- ...
利用 onload 事件监控跨站资源
用过 CSP 的都很郁闷,上报的只有违规的站点名,却没有具体路径.这是缺陷,还是特意的设计? 显然,CSP 是为安全定制的,里面的规范自然要严格制定,否则就会带来新的安全问题.如果支持详细路径的上报, ...
“-Xmx1024m -Xms1024m -Xmn512m -Xss256k”——Java运行参数(转)
JVM的堆的内存, 是通过下面面两个参数控制的 -Xms 最小堆的大小, 也就是当你的虚拟机启动后, 就会分配这么大的堆内存给你 -Xmx 是最大堆的大小当最小堆占满后,会尝试进行GC,如果GC之后 ...
setFocus一定要写在setLayout设置的后面，否则不起作用——使用setFocusPolicy为控件设置不同的焦点策略：Tab焦点，Click焦点，Wheel焦点和没有焦点
QLineEdit* pEditor = new QLineEdit(m_strText); pEditor->resize(.......); pEditor->move(. ...
OpenStack安装部署管理中常见问题解决方法
一.网络问题-network 更多网络原理机制可以参考<OpenStack云平台的网络模式及其工作机制>. 1.1.控制节点与网络控制器区别 OpenStack平台中有两种类型的物理节点, ...
Linux常用的系统监控shell脚本
http://www.linuxqd.com下面是我常用的几个Linux系统监控的脚本,大家可以根据自己的情况在进行修改,希望能给大家一点帮助.1.查看主机网卡流量 #!/bin/bash #netw ...

使用python网络库下载

使用python网络库下载的更多相关文章

随机推荐

热门专题