1. 正文

1.1. 任务描述文件

前文提到过，HTCondor是通过condor_submit命令将提交任务的，这个命令需要提供一个任务描述文件。这个任务描述文件详细描述了任务运行的需求情况，如下所示：

universe = vanilla

requirements = (Arch == "INTEL" || Arch == "X86_64") && (OpSys == "WINDOWS") && (Machine == "charlee-PC" || Machine == "DESKTOP-OVHV440")

executable = D:\Work\HTC\Work\bin\TaskProgram.exe

should_transfer_files = YES

when_to_transfer_output = on_exit

notification = complete

skip_filechecks = true

arguments = 0

initialdir = D:\Work\HTC\Work\0

transfer_input_files = input.txt

transfer_output_files = output.dat

output = $(CLUSTER)_$(PROCESS).out

log = $(CLUSTER)_$(PROCESS).log

error = $(CLUSTER)_$(PROCESS).error

queue

arguments = 1

initialdir = D:\Work\HTC\Work\1

transfer_input_files = input.txt

transfer_output_files = output.dat

output = $(CLUSTER)_$(PROCESS).out

log = $(CLUSTER)_$(PROCESS).log

error = $(CLUSTER)_$(PROCESS).error

queue

...

arguments = 15

initialdir = D:\Work\HTC\Work\15

transfer_input_files = input.txt

transfer_output_files = output.dat

output = $(CLUSTER)_$(PROCESS).out

log = $(CLUSTER)_$(PROCESS).log

error = $(CLUSTER)_$(PROCESS).error

queue

universe参数表示HTCondor的运行环境，默认为vanilla。vanilla提供的功能会少一些，但是使用也会较为方便。如果要使用一些高级的功能，可以使用standard环境，standard环境提供了断点和迁移的功能，不过需要一些额外的重链接操作生成特定的可执行程序。

requirements参数表示该一系列任务的需求。HTCondor采取了一种ClassAds匹配策略，每台计算机会一直在Pool中广播关于自己资源的Ad，通过这个参数，可以匹配该任务是否与该计算机适配。这里设置的意思是选择X86的Windows机器，且机器名称为"charlee-PC"或"DESKTOP-OVHV440"。使用"name == "slot1@USER-EHN3KRBP1V"的形式，甚至可以指定到某一核来运行。

executable也就是上一篇中实现的可执行程序。

should_transfer_files表示使用文件传输机制。文件传输机制也就是任务程序需要的数据，跟随任务程序一起发送到任务机中运行。如果不使用文件传输机制，就需要如NFS或AFS这样的共享文件系统。

when_to_transfer_output = on_exit表示当任务程序完成之后，会有输出的文件一起传送回本机。

接下来arguments开头queue结尾的代码描述了16组任务的详细描述。initialdir是初始化目录，也就是上一节中创建的每个分任务的目录。

transfer_input_files表示传送到任务机的文件。这个参数可以设置成具体的文件，目录，设置是可执行程序依赖的dll。注意发送到任务机后这些文件与执行任务文件在同一个目录中。

when_to_transfer_output表示发送回本机的文件。当任务程序运行完成后，会生成处理好的数据，可以通过这个参数将文件传送回本机。

output表示任务程序的输出文件，可以截获任务程序的stdout流。

log表示集群执行任务程序的状态，一般是HTCondor框架自动生成。

error表示任务程序的错误文件，可以截获任务程序的stderr流。

1.2. 提交任务

在命令提示符窗口中输入condor_submit指令：

可以看到成功提交后，返回了一个任务ID号。可以通过condor_q指令查看当前的任务队列状态：

ST这一列的I代表idle，也就是闲置的。这时由于任务刚提交上去，还来不及匹配任务机器或者没有更新状态，多刷新几次，可以看到这一栏会编程R，也就是Run，表示运行状态：

继续输入condor_status,查看当前计算机资源的情况。这时的状态刷新会更慢些，也可以多输入几次：

State表示资源占用情况，Claimed表示已占用，Claimed表示未占用。Activity表示当前的活动状态，Idle就是闲置，Busy表示繁忙。

通过以上指令，可以查看当前任务是否正常。等待直到condor_q中的任务队列为空，就说明当前所有的任务已经完成了。

1.3. 返回结果

根据任务描述文件，任务程序会返回一个输出数据output.dat已经相关的日志信息.log、.out、.error。任务完成后会回传到各自的初始化目录中：

.out是任务程序的stdout流，可以用来输出信息；.error是任务程序的stderr流，可以用来输出错误信息。在任务程序中输出信息和日志是必要的，可以第一事件排查是哪一段代码出问题。如果连这两个文件都没有，可以考虑是否是HTCondor的环境配置问题，或者任务描述文件是否出错。

.log是HTCondor的输出日志，可以用来参考。output.dat就是任务程序的输出数据了，当然这个数据因任务程序而异，任务程序输出什么，任务描述文件就返回对应的数据，当然也可以什么都不用返回。

在HTCondor任务程序计算的过程中，会把任务程序传送到对应的任务机器，也就是任务机器HTCondor安装目录的execute目录中，运行时会看到任务程序，以及传送过来的数据等:

当然，在运行完成后，这个execute目录就会自动清空。

至此，一个简单的分布式计算流程就算完成了。实际的运用当然没这么简单，但是总体的思路都是这样的：

拆分任务——提交任务——监视任务——任务完成——合并结果。

2. 相关

代码和数据地址

高通量计算框架HTCondor(五)——分布计算的更多相关文章

高通量计算框架HTCondor(一)——概述
目录 1. 正文 2. 目录 3. 参考 4. 相关 1. 正文 HTCondor是威斯康星大学麦迪逊分校构建的分布式计算软件和相关技术,用来处理高通量计算(High Throughput Compu ...
高通量计算框架HTCondor(四)——案例准备
目录 1. 正文 1.1. 任务划分 1.2. 任务程序 2. 相关 1. 正文 1.1. 任务划分使用高通量计算第一步就是要针对密集运算任务做任务划分.将一个海量的.耗时的.耗资源的任务划分成合适 ...
高通量计算框架HTCondor(六)——拾遗
目录 1. 正文 1.1. 一些问题 1.2. 使用建议 2. 相关 1. 正文 1.1. 一些问题如果真正要将HTCondor高通量计算产品化还需要很多工作要做,HTCondor并没有GUI界面, ...
高通量计算框架HTCondor(二)——环境配置
目录 1. 概述 2. 安装 3. 结果 4. 相关 1. 概述 HTCondor是开源跨平台的分布式计算框架,在其官网上直接提供了源代码和Windows.Linux以及MacOS的安装包.因为平台限 ...
高通量计算框架HTCondor(三)——使用命令
目录 1. 目录 2. 进程 3. 命令 3.1. condor_q 3.2. condor_status 3.3. conodr_submit 3.4. conodr_rm 4. 相关 1. 目录 ...
Vue.js-----轻量高效的MVVM框架（五、计算属性）
#基础例子 <div id="dr01"> <h4>#基础例子</h4> <div> num01={{num01}}, num02= ...
（第4篇）hadoop之魂--mapreduce计算框架，让收集的数据产生价值
摘要: 通过前面的学习,大家已经了解了HDFS文件系统.有了数据,下一步就要分析计算这些数据,产生价值.接下来我们介绍Mapreduce计算框架,学习数据是怎样被利用的. 博主福利给大家赠送一套ha ...
译 - 高可用的mesos计算框架设计
原文地址 http://mesos.apache.org/documentation/latest/high-availability-framework-guide/ 阅读建议:有写过或者看过Mes ...
实时计算框架：Flink集群搭建与运行机制
一.Flink概述 1.基础简介 Flink是一个框架和分布式处理引擎,用于对无界和有界数据流进行有状态计算.Flink被设计在所有常见的集群环境中运行,以内存执行速度和任意规模来执行计算.主要特性包 ...

随机推荐

2019-3-8-为何使用-DirectComposition
title author date CreateTime categories 为何使用 DirectComposition lindexi 2019-3-8 8:56:9 +0800 2018-04 ...
es6笔记 day2---函数默认参数、箭头函数、剩余参数
函数变化: 1.函数默认参数 2.函数参数默认是已经定义了,不能再使用let.const声明 3.扩展运算符.rest运算符 ...就是扩展运算符,它的作用就是把数组给展开结合函数使用传参,也可以将 ...
Storm使用总结
Strom安装 Strom启动 ./zkServer.sh start 启动nimbus主节点: nohup bin/storm nimbus >> /dev/null & 启动s ...
游戏《Minecraft》或其他应用程序实现自动更新客户端版本
本渣又来写(水)博客了. 先说一下,我这个解决方案的安全性并不是企业级的,咱们就是一群穷开服的Minecraft玩家. 如果你要投入到企业级应用(容易被黑客攻击的场景),请自己写,思路凑合看看.不然安 ...
codeforces 1183F 离散化枚举约数定理
codeforces1183F 有技巧的暴力传送门:https://codeforces.com/contest/1183/problem/F 题意: 给你n个数,要你从中选出最多三个数,使得三个数 ...
pandas小程序应用-实验
背景:来自于日常工作,针对医院行政人员统计日常门诊信息,手工统计繁琐.容易出错的问题,结合实际特点,采用python对数据进行自动统计. 具体步骤如下: 1.引入python工具包. import p ...
JavaScript的bind方法
bind的机制 var foo = function(){} var bar = foo; console.log(foo === bar) //true /*-------------------- ...
缓存, 队列(Redis,RabbitMQ)
Redis Redis是一个key-value存储系统.和Memcached类似,它支持存储的value类型相对更多,包括string(字符串).list(链表).set(集合).zset(sorte ...
Struts||IQ
Here's question about struts2....... 1.struts2原理初始的请求通过一条标准的过滤器链,到达 servlet 容器 ( 比如 tomcat 容器,WebSp ...
C# 对象与引用变量
从宏观的角度来看,对象是类的实例.比如: //定义一个名为Someone的类,代表这么一些人(通过指定年龄,性别,性格等基本信息)class Someone { public int age; p ...

高通量计算框架HTCondor(五)——分布计算