Python 爬虫（2）多线程

前面说过由于GIL的存在，Python的多线程效率没有希望的那么高，python的多线程适合IO密集型的情况，而爬虫恰好就是一个IO密集的情况，因为爬虫中很大一部分时间，是在等待socket返回数据。

下面写一个例子：

import requests

import time

if __name__ == '__main__':

    codes = ['sh600993', 'sh000006', 'sh600658', 'sh600153', 'sh600005']

    start = time.time()

    for code in codes:

        url = 'http://hq.sinajs.cn/list=' + code

        response = requests.get(url).text

        print response

    print time.time() - start

var hq_str_sh600993="马应龙,20.020,20.090,20.060,20.060,19.950,20.040,20.060,486809,9740634.000,2100,20.040,8300,20.030,1300,20.020,2300,20.010,4100,20.000,101,20.060,10000,20.070,14400,20.080,19000,20.090,25700,20.100,2017-01-24,11:30:00,00";

var hq_str_sh000006="地产指数,6567.8364,6574.1060,6568.6375,6577.7249,6542.6599,0,0,1486830,1392918131,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,2017-01-24,11:35:51,00";

var hq_str_sh600658="电子城,13.320,13.200,13.270,13.320,13.040,13.270,13.280,559733,7389992.000,30800,13.270,300,13.220,6200,13.200,2500,13.100,4900,13.090,9300,13.280,6400,13.290,8200,13.300,6900,13.310,9000,13.320,2017-01-24,11:30:00,00";

var hq_str_sh600153="建发股份,10.520,10.510,10.500,10.540,10.460,10.490,10.500,4834159,50730040.000,32800,10.490,60100,10.480,186000,10.470,181241,10.460,125800,10.450,56600,10.500,105500,10.510,108400,10.520,110400,10.530,139900,10.540,2017-01-24,11:30:00,00";

var hq_str_sh600005="武钢股份,0.000,3.710,3.710,0.000,0.000,0.000,0.000,0,0.000,0,0.000,0,0.000,0,0.000,0,0.000,0,0.000,0,0.000,0,0.000,0,0.000,0,0.000,0,0.000,2017-01-24,11:30:00,03";

0.110999822617

　　换成多线程之后：

import requests

import threading

import time

def get_stock(code):

    url = 'http://hq.sinajs.cn/list=' + code

    response = requests.get(url).text

    # js_info = response.read()

    print response

if __name__ == '__main__':

    codes = ['sh600993', 'sh000006', 'sh600658', 'sh600153', 'sh600005']

    start = time.time()

    threads = [threading.Thread(target = get_stock,args = (code,)) for code in codes]

    for t in threads:

        t.start()

    for t in threads:

        t.join()

    print time.time()-start

var hq_str_sh600993="马应龙,20.020,20.090,20.060,20.060,19.950,20.040,20.060,486809,9740634.000,2100,20.040,8300,20.030,1300,20.020,2300,20.010,4100,20.000,101,20.060,10000,20.070,14400,20.080,19000,20.090,25700,20.100,2017-01-24,11:30:00,00";

var hq_str_sh600658="电子城,13.320,13.200,13.270,13.320,13.040,13.270,13.280,559733,7389992.000,30800,13.270,300,13.220,6200,13.200,2500,13.100,4900,13.090,9300,13.280,6400,13.290,8200,13.300,6900,13.310,9000,13.320,2017-01-24,11:30:00,00";

var hq_str_sh000006="地产指数,6567.8364,6574.1060,6568.6375,6577.7249,6542.6599,0,0,1486830,1392918131,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,2017-01-24,11:35:51,00";

var hq_str_sh600153="建发股份,10.520,10.510,10.500,10.540,10.460,10.490,10.500,4834159,50730040.000,32800,10.490,60100,10.480,186000,10.470,181241,10.460,125800,10.450,56600,10.500,105500,10.510,108400,10.520,110400,10.530,139900,10.540,2017-01-24,11:30:00,00";

var hq_str_sh600005="武钢股份,0.000,3.710,3.710,0.000,0.000,0.000,0.000,0,0.000,0,0.000,0,0.000,0,0.000,0,0.000,0,0.000,0,0.000,0,0.000,0,0.000,0,0.000,0,0.000,2017-01-24,11:30:00,03";

0.0379998683929

　　速度有了很大的提升

线程池

import requests

import threadpool

import time

def get_stock(code):

    url = 'http://hq.sinajs.cn/list=' + code

    response = requests.get(url).text

    # js_info = response.read()

    print response

if __name__ == '__main__':

    codes = ['sh600993', 'sh000006', 'sh600658', 'sh600153', 'sh600005']

    start = time.time()

    pool = threadpool.ThreadPool(5)

    tasks = threadpool.makeRequests(get_stock,codes)

    [pool.putRequest(task) for task in tasks]

    pool.wait()

    print time.time() - start

threadpool.ThreadPool定义了一个线程池，表示可以创建4个线程；

makeRequests创建了要开启多线程的函数，已经函数的参数以及回调函数，回调函数callback可以不写,默认是无。

[pool.putRequest(task) for task in tasks]是将所有多线程的请求扔进了线程池，等价于

for code in codes:

    pool.putRequest(code)

　pool.wait()是等待所有工作完成后退出。这里执行的数量还比较少，基本的多线程就够用了，当数量多了起来之后，线程池的效果会好一些。

Python 爬虫（2）多线程的更多相关文章

python爬虫之多线程、多进程+代码示例
python爬虫之多线程.多进程使用多进程.多线程编写爬虫的代码能有效的提高爬虫爬取目标网站的效率. 一.什么是进程和线程引用廖雪峰的官方网站关于进程和线程的讲解: 进程:对于操作系统来说,一个任 ...
Python爬虫之多线程下载豆瓣Top250电影图片
爬虫项目介绍本次爬虫项目将爬取豆瓣Top250电影的图片,其网址为:https://movie.douban.com/top250, 具体页面如下图所示: 本次爬虫项目将分别不使用多线程和使 ...
Python爬虫之多线程下载程序类电子书
近段时间,笔者发现一个神奇的网站:http://www.allitebooks.com/ ,该网站提供了大量免费的编程方面的电子书,是技术爱好者们的福音.其页面如下: 那么我们是否可以通过Py ...
Python爬虫之多线程
详情点我跳转关注公众号"轻松学编程"了解更多. 多线程在介绍Python中的线程之前,先明确一个问题,Python中的多线程是假的多线程! 为什么这么说,我们先明确一个概念,全 ...
python爬虫之多线程、多进程、GIL锁
背景: 我们知道多线程要比多进程效率更高,因为线程存在于进程之内,打开一个进程的话,首先需要开辟内存空间,占用内存空间比线程大.这样想也不怪,比如一个进程用10MB,开10个进程就得100MB的内存空 ...
【新手必学】Python爬虫之多线程实战
前言本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理.作者:清风化煞_ 正文新手注意:如果你学习遇到问题找不到人解答,可以点 ...
Python爬虫进阶 | 多线程
一.简介为了提高爬虫程序效率,由于python解释器GIL,导致同一进程中即使有多个线程,实际上也只会有一个线程在运行,但通过request.get发送请求获取响应时有阻塞,所以采用了多线程依然可以 ...
爬虫篇-python爬虫中多线程的使用
queue介绍 queue是python的标准库,俗称队列.可以直接import引用,在python2.x中,模块名为Queue.python3直接queue即可在python中,多个线程之间的数据 ...
Python爬虫练习(多线程，进程，协程抓取网页)
详情点我跳转关注公众号"轻松学编程"了解更多. 一.多线程抓取网页流程:a.设置种子url b.获取区域列表 c.循环区域列表 d.创建线程获取页面数据 e.启动线程 impo ...
Python爬虫的N种姿势
问题的由来前几天,在微信公众号(Python爬虫及算法)上有个人问了笔者一个问题,如何利用爬虫来实现如下的需求,需要爬取的网页如下(网址为:https://www.wikidata.org/w/ ...

随机推荐

【51nod】1340 地铁环线
今天头非常疼,躲在家里没去机房反正都要颓废了,然后花了一上午研究了一下这道神题怎么做-- 题解首先我们发现,如果我们设\(dis[i]\)为从\(0\)节点走到\(i\)节点的距离那么题目中给出 ...
查看loadrunner代码行号
运行前报错,如Syntax error on line 133 near ";"那么如何查看代码的行号呢?解决方法:看代码行号时,直接将鼠标在代码的某处单击,在窗体的最下方右侧能看 ...
监控属性数组（Observables Arrays ）
如果你想发现并响应一个对象的改变,就应该用监控属性(observables).如果你想发现并响应一个集合的变化,就该用监控属性数组 (observableArray).监控属性数组在显示或编辑多个值以 ...
ApplicationContext中getBean详解
在org.springframework.context包中有一个接口叫 applicationContext applicationContext中有一个getBean方法,此方法继承之BeanFa ...
长沙理工大学第十二届ACM大赛-重现赛 L - 选择困难症
题目描述小L有严重的选择困难症. 早上起床后,需要花很长时间决定今天穿什么出门. 假设一共有k类物品需要搭配选择,每类物品的个数为Ai,每个物品有一个喜欢值Vj,代表小L对这件物品的喜欢程度. 小L ...
BZOJ1878 [SDOI2009] HH的项链 [莫队，卡常]
BZOJ传送门,洛谷传送门 HH的项链 Description HH有一串由各种漂亮的贝壳组成的项链.HH相信不同的贝壳会带来好运,所以每次散步完后,他都会随意取出一段贝壳,思考它们所表达的含义. ...
java -jar demo.jar
部署springboot项目生成jar包其实还是依赖springboot的jar才能跑起来,为什么呢? 1.在C盘手工创建了一个文件夹,是拷贝了demo.jar这个jar包运行是报错的. 2.在D: ...
Java常用工具类之IO流工具类
package com.wazn.learn.util; import java.io.Closeable; import java.io.IOException; /** * IO流工具类 * * ...
Linux下Makefile学习笔记
makefile 可以用于编译和执行多个C/C++源文件和头文件. (1) #include "file.h" 和 #include <file.h> 的区别 #inc ...
【BZOJ 1016】 1016: [JSOI2008]最小生成树计数（DFS|矩阵树定理）
1016: [JSOI2008]最小生成树计数 Description 现在给出了一个简单无向加权图.你不满足于求出这个图的最小生成树,而希望知道这个图中有多少个不同的最小生成树.(如果两颗最小生成树 ...

Python 爬虫（2）多线程

线程池

Python 爬虫（2）多线程的更多相关文章

随机推荐

热门专题