在Python中处理大型文件的最快方法

我们需要处理的各种目录中有大约500GB的图像。每个图像的大小约为4MB，我们有一个python脚本，一次处理一个图像（它读取元数据并将其存储在数据库中）。每个目录可能需要1-4小时才能处理，具体取决于大小。

我们可以在GNU / Linux操作系统上使用2.2Ghz四核处理器和16GB RAM。当前脚本仅使用一个处理器。利用其他内核和RAM来更快地处理图像的最佳方法是什么？启动多个Python进程来运行脚本会利用其他内核吗？

另一个选择是使用Gearman或Beanstalk之类的东西将工作分配给其他机器。我已经看了多处理库但不知道如何利用它。

解决方案

启动多个Python进程来运行脚本会利用其他内核吗？

是的，如果任务受CPU约束，它将会。这可能是最简单的选择。但是，不要为每个文件或每个目录生成单个进程; 考虑使用像这样的工具，parallel(1)并让它产生每个核心两个进程的东西。

另一个选择是使用Gearman或Beanstalk之类的东西将工作分配给其他机器。

那可能有用。另外，看看ZeroMQ的Python绑定，它使分布式处理变得非常简单。

我已经看了多处理库但不知道如何利用它。

比如定义一个函数，process它读取单个目录中的图像，连接到数据库并存储元数据。让它返回一个表示成功或失败的布尔值。我们directories是目录处理的列表。然后

import multiprocessing

pool = multiprocessing.Pool(multiprocessing.cpu_count())

success = all(pool.imap_unordered(process, directories))

将并行处理所有目录。如果需要，您还可以在文件级执行并行操作; 这需要更多的修修补补。

请注意，这将在第一次失败时停止; 使其容错需要更多的工作。

本文首发于python黑洞网，博客园同步更新

在Python中处理大型文件的最快方法的更多相关文章

python中readline判断文件读取结束的方法
注:内容来自网络本文实例讲述了python中readline判断文件读取结束的方法.分享给大家供大家参考.具体分析如下: 大家知道,python中按行读取文件可以使用readline函数,下面现介绍 ...
python中__init__.py文件的作用
问题在执行models.py时,报ImportError:No module named transwarp.db的错误,但明明transwarp下就有db.py文件,路径也没有错误.真是想不通.后 ...
python中逐行读取文件的最佳方式_Drupal_新浪博客
python中逐行读取文件的最佳方式_Drupal_新浪博客 python中逐行读取文件的最佳方式 (2010-08-18 15:59:28) 转载▼ 标签: python ...
python中执行该文件，就调用 mian 方法
代码: test.py import student def main(): st = student.student(1001, 'tommy', 18) st.sing() st.dance() ...
Python中__init__.py文件的作用详解
转自http://www.jb51.net/article/92863.htm Python中__init__.py文件的作用详解 http://www.jb51.net/article/86580. ...
转载：【学习之家】Python中__init__.py文件的作用
Python中__init__.py文件的作用详解 Python中__init__.py文件的作用详解来源:学习之家作者:xuexi110 人气:357 发布时间:2016-09-29 摘要:__ ...
python中处理.mat文件
python中处理.mat文件背景在实际使用python的时候,发现很多数据都是使用.mat的形式保存,所以,如何使用python读写.mat文件成为了许多python使用者必备的技能. -v7. ...
python中操作csv文件
python中操作csv文件读取csv improt csv f = csv.reader(open("文件路径","r")) for i in f: pri ...
.net中创建xml文件的两种方法
.net中创建xml文件的两种方法方法1:根据xml结构一步一步构建xml文档,保存文件(动态方式) 方法2:直接加载xml结构,保存文件(固定方式) 方法1:动态创建xml文档根据传递的值,构建 ...

随机推荐

kafaka环境搭建
激动无比,终于成功搭建了一套集群的kafka,记录下我的搭建步骤,供大家参考,如有不对,请指正: 1.集群搭建首先搭建一个一主三从(或一主两从)的集群, 2.配置jdk环境需要是jdk8的包我的 ...
Python之带有外部状态的生成器函数
带有外部状态的生成器函数,也就是你的生成器暴露外部状态给用户解决: 定义一个类,然后把生成器函数放到 __iter__() 方法中过去定义一个类,然后把生成器函数放到 __iter__() 方法中过 ...
CSS语法规则
一.At-rule 一种以@开头的声明语句,以分号;结尾.语法规则为: @IDENTIFIER (RULE); . At-rule主要用作表示CSS的行为,参考: https://www.cnblog ...
JavaScript深入之类数组对象与arguments（转载）
类数组对象所谓的类数组对象: 拥有一个 length 属性和若干索引属性的对象举个例子: var array = ['name', 'age', 'sex']; var arrayLike = { ...
elasticsearch 深入 —— 全文检索
全文搜索我们已经介绍了搜索结构化数据的简单应用示例,现在来探寻全文搜索(full-text search) :怎样在全文字段中搜索到最相关的文档. 全文搜索两个最重要的方面是: 相关性(Relev ...
Solr的学习使用之（二）schema.xml等配置文件的解析
上一篇文章已经讲解了如何部署Solr,部署是部署完了,可是总觉得心里空空的,没底,里面有N多配置文件,比如schema.xml.solrConfig.xml.solr.xml and so on……都 ...
DELPHI 10 SEATTLE 在OSX上安装PASERVER
旧版本的DELPHI在安装目录下里的PASERVER目录有安装文件,但奇怪在这个SEATTLE上的PASERVER目录下只有一个EXE程序的安装程序,显然不能安装到OSX里,需要在Embarcad ...
替换OSD操作的优化与分析
http://www.zphj1987.com/2016/09/19/%E6%9B%BF%E6%8D%A2OSD%E6%93%8D%E4%BD%9C%E7%9A%84%E4%BC%98%E5%8C%9 ...
UIStakView的添加与移除
subView和arrangedSubView对于Stack View的子控件添加和移除,我们是这样描述的. 添加-->(Stack View管理的subview) addArrangedSub ...
R中unlist函数的使用
买的书里面实例讲的不清不楚,所以看帮助文档了用法:unlist(x, recursive = TRUE, use.names = TRUE) 帮助文档讲x可以是向量或者列表,如果是向量,则原样返回, ...

在Python中处理大型文件的最快方法

解决方案

在Python中处理大型文件的最快方法的更多相关文章

随机推荐

热门专题