Python/Numpy大数据编程经验

1.边处理边保存数据，不要处理完了一次性保存。不然程序跑了几小时甚至几天后挂了，就啥也没有了。即使部分结果不能实用，也可以分析程序流程的问题或者数据的特点。

2. 及时用 del 释放大块内存。Python缺省是在变量范围（variablescope）之外才释放一个变量，哪怕这个变量在后面的代码没有再被用到，所以需要手动释放大的array。

注意所有对数组的引用都del之后，数组才会被del。这些引用包括A[2:]这样的view，即使np.split也只是创建了view，没有真的把内存分到不同的array里。

3. 矩阵点乘对角阵，用逐行乘可以快几十、几百倍：M.dot( diag(v) ) -> M*v。

4. 尽量重用内存。比如

sqrtW = np.sqrt(W)

(W以后再没有用到了)

这样多了分配sqrtW内存的时间

可以改写成

np.sqrt(W,W) # in placesqrt

sqrtW = W # take auser-friendly name as its reference

类似的

A = B + C # B is neverused later

可以改写成

B += C; A = B

4. 用 ipython 的 run -p prog.py 做profiling，找出耗时最多的语句。

也可以实现简单的Timer类，打印出耗时流程使用的时间。

5. 把实际代码高度简化，只留下使用相同大小的内存和相同多的运算的skeleton，来事先评估算法的时间和空间复杂度。而且可以分块评估。比如

…… complex and slowroutine to compute V11, Wsum, Gwmean ......

for i in xrange(noncore_size):

wi = Wsum[ i ]

VW = V11.T* wi

VWV =VW.dot(V11)

V21[ i] =np.linalg.inv(VWV).dot( VW.dot(Gwmean[ i]) )

可以写个test.py，用 np.random.randn() 随机初始化 V11,Wsum, Gwmean，然后执行这个代码块，看出大致所需内存和每个循环的时间，避免了执行之前漫长的计算这些变量的时间。

6.如果是windows，把windows自动安装更新的选项关掉。不然可能跑了一夜程序，收结果时一看，windows自动重启过了……哭

Python/Numpy大数据编程经验的更多相关文章

【Python开发】Python 适合大数据量的处理吗？
Python 适合大数据量的处理吗? python 能处理数据库中百万行级的数据吗? 处理大规模数据时有那些常用的python库,他们有什么优缺点?适用范围如何? 需要澄清两点之后才可以比较全面的看这 ...
黑马基础阶段测试题：创建一个存储字符串的集合list，向list中添加以下字符串：”C++”、”Java”、” Python”、”大数据与云计算”。遍历集合，将长度小于5的字符串从集合中删除，删除成功后，打印集合中的所有元素
package com.swift; import java.util.ArrayList; import java.util.List; import java.util.ListIterator; ...
为什么说Python 是大数据全栈式开发语言
欢迎大家访问我的个人网站<刘江的博客和教程>:www.liujiangblog.com 主要分享Python 及Django教程以及相关的博客交流QQ群:453131687 原文链接 h ...
python学习--大数据与科学计算第三方库简介
大数据与科学计算库名称简介 pycuda/opencl GPU高性能并发计算 Pandas python实现的类似R语言的数据统计.分析平台.基于NumPy和Matplotlib开发的,主要用于 ...
菜鸟学python之大数据的初认识
这次作业的要求来自于:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE1/homework/2639 1.这些分析所采用数据来源是什么? 国家数据库:中国铁路 ...
python模拟大数据登陆
#针对tableu 撰写的大数据框架 #tesseract 识别简单的验证码不多说直接上代码 # coding:utf-8 from selenium import webdriver from ...
Twitter数据挖掘：如何使用Python分析大数据
我们可以创建变量来存放待拉取的微博数量(即count),以及待拉取的用户(即name).然后用这两个参数调用user_timeline()函数.下面是更新后的代码(注意,在代码的顶部应该保持认证和AP ...
Twitter数据挖掘：如何使用Python分析大数据 (3)
让我们来拉取Twitter账号@NyTimes的最近20条微博. 我们可以创建变量来存放待拉取的微博数量(即count),以及待拉取的用户(即name).然后用这两个参数调用user_timeline ...
Python处理大数据
起因 Python处理一下数据,大概有六七个G,然后再存到另外一个文件中,单线程跑起来发现太慢了,数据总量大概是千万行的级别,然后每秒钟只能处理不到20行--遂想怎么提高一下速度尝试1-multip ...

随机推荐

服务器的SVN项目版本较低，check out 下来后报错
check out下来后报错提示: svn: E155036: Please see the 'svn upgrade' commandsvn: E155036: Working copy '/hom ...
wordpress 提取头像的src
获取用户头像,可以通过 $avatar_html = get_avatar( $email ); 获取到头像的html /** * Retrieve the avatar url for a user ...
关于.NET编译的目标平台(AnyCPU,x86,x64)
转载:http://blog.sina.com.cn/s/blog_78b94aa301014i8r.html 今天有项目的代码收到客户的反馈,要求所有的EXE工程的目标平台全部指定成x86,而所有D ...
ajax学习笔记1
ajax是什么? ajax即“Asynchronous Javascript + XML”(异步JavaScript和XML),是指一种创建交互式网页应用的网页开发技术.能够快速的从服务器获得所需数据 ...
页面动态加载js文件
function loadJS(url, onload) { var domscript = document.createElement('script'); domscript.src = url ...
ios面试题集锦（一）
一.前言部分文中的问题多收集整理自网络,不保证100%准确,还望斟酌采纳. 1.iOS9有哪些新特性? 答案: 1)改进了 Siri 基于日期.位置和相簿名称来搜索个人照片和视频要求 Siri 来 ...
json转换（c#后台生成json的方法）
此文转自:http://bbs.csdn.net/topics/380200497,为了方便自己记忆才以文章形式保存. using System; using System.Collections.G ...
二维树状数组——SuperBrother打鼹鼠(Vijos1512)
树状数组(BIT)是一个查询和修改复杂度都为log(n)的数据结构,主要用于查询任意两位之间的所有元素之和,其编程简单,很容易被实现.而且可以很容易地扩展到二维.让我们来看一道很裸的二维树状数组题: ...
04_SSM框架整合（Spring+SpringMVC+MyBatis）
[SSM的系统架构] [整合概述] 第一步: MyBatis和Spring整合,通过Spring管理mapper接口. 使用mapper的扫描器自动扫描mapper接口在Spring中进行注册. 第二 ...
Java异常（1）
一.要达到的效果如果出现错误而是某些操作没有完成,程序应该: (1)返回到一种安全状态,并能够让用户执行一些其他的命令. (2)允许用户保存所有操作的结果,并以适当的方式终止程序. 异常处理的任 ...

Python/Numpy大数据编程经验

Python/Numpy大数据编程经验

Python/Numpy大数据编程经验的更多相关文章

随机推荐

热门专题