超算CST DC分布式作业Main Controller 主控节点程序连接不上问题
基础点: CST DC MC主控节点配置文件:/etc/xdg/CST AG/CST DC Main Control2013.conf
CST DC SS求解器节点配置文件:/etc/xdg/CST AG/CST DC Solver Control2013.conf
MC进程:lsb-cst-mainController2013
SS进程:lsb-cst-solverserver2013
工作路径:/tmp/CSTMainControllerWork2013
/tmp/CSTSolverServerWork2013
问题:CST的main controller 程序在大量程序仿真时会出现失去响应和崩溃
ssh到主控节点(比如节点名是mc06):ssh mc06
查看main controller进程状态:/etc/init.d/lsb-maincontroller2013 status
1提示Not running ,侧重新开启/etc/init.d/lsb-maincontroller2013 start
2提示is up and running ,则表示程序正在运行,但可能已无响应,这个时候手动结束main controller进程和重启进程
第一步:ps -ef | grep CSTDCMaincontroller.real (查找到main controller进程的PID,可能会看到两个与main controller相关的进程,其中有一个进程是刚刚我们用grep 命令产生的进程,这个不用管它)
第二步:kill -9 pid (杀掉main controller进程)
第三步:ps -ef | grep CSTDCMaincontroller.real (重新确认系统已经没有main controller相关的进程了)
第四步:/etc/init.d/lsb-maincontroller2013 start (重新再启动main controller 进程)
这个时候再重新连接主控节点MC06就应该能连接上了 。
超算CST DC分布式作业Main Controller 主控节点程序连接不上问题的更多相关文章
- 分布式作业 Elastic Job 如何动态调整?
前面分享了两篇分布式作业调度框架 Elastic Job 的介绍及应用实战. ElasticJob-分布式作业调度神器 分布式作业 Elastic Job 快速上手指南! Elastic Job 提供 ...
- 分布式作业 Elastic-Job 快速上手指南,从理论到实战一文搞定!
Elastic-Job支持 JAVA API 和 Spring 配置两种方式配置任务,这里我们使用 JAVA API 的形式来创建一个简单的任务入门,现在都是 Spring Boot 时代了,所以不建 ...
- 第五章 部署master主控节点
一.部署etcd集群 1.1 集群规划 主机名 角色 IP hdss7-12 leader 10.4.7.12 hdss7-21 follow 10.4.7.21 hdss7-22 follow 10 ...
- [源码解析] PyTorch 分布式之弹性训练(7)---节点变化
[源码解析] PyTorch 分布式之弹性训练(7)---节点变化 目录 [源码解析] PyTorch 分布式之弹性训练(7)---节点变化 0x00 摘要 0x01 变化方式 1.1 Scale-d ...
- DTCC 2020 | 阿里云李飞飞:云原生分布式数据库与数据仓库系统点亮数据上云之路
简介: 数据库将面临怎样的变革?云原生数据库与数据仓库有哪些独特优势?在日前的 DTCC 2020大会上,阿里巴巴集团副总裁.阿里云数据库产品事业部总裁.ACM杰出科学家李飞飞就<云原生分布式数 ...
- 用python + hadoop streaming 编写分布式程序(二) -- 在集群上运行与监控
写在前面 相关随笔: Hadoop-1.0.4集群搭建笔记 用python + hadoop streaming 编写分布式程序(一) -- 原理介绍,样例程序与本地调试 用python + hado ...
- Kubernets二进制安装(7)之部署主控节点服务--apiserver简介
API Server简介 Kubernetes API Server提供了K8S各类资源对象(如:pod.RC.Service等)的增删改查及watch等HTTP Rest接口,是整个系统的数据总线和 ...
- 编写一个带有main函数的类,调用上面的汽车类,实例化奔驰、大众、丰田等不同品牌和型号,模拟开车过程:启动、加速、转弯、刹车、息火,实时显示速度。
//程序入口 public static void main(String[] args) { // TODO Auto-generated method stub ...
- 【JavaWEB SSH】jsp页面传值后台Controller 部分值绑定不上实体类
//前端ajax代码 1 var oldpassword = $('#old_password').val(); var password = $('#L_pass').val(); var user ...
- Kubernets二进制安装(10)之部署主控节点部署调度器服务kube-scheduler
Kubernetes Scheduler是一个策略丰富.拓扑感知.工作负载特定的功能,调度器显著影响可用性.性能和容量.调度器需要考虑个人和集体的资源要求.服务质量要求.硬件/软件/政策约束.亲和力和 ...
随机推荐
- .NET周刊【5月第2期 2025-05-11】
国内文章 C#/.NET/.NET Core优秀项目和框架2025年4月简报 https://www.cnblogs.com/Can-daydayup/p/18865040 本文介绍了每月定期推荐的C ...
- 第8讲、Multi-Head Attention 的核心机制与实现细节
为什么要有 Multi-Head Attention? 单个 Attention 机制虽然可以捕捉句子中不同词之间的关系,但它只能关注一种角度或模式. Multi-Head 的作用是: 多个头 = 多 ...
- Java 线程池会自动关闭吗|转
在展开描述之前,我们综述一下哪些场景,线程池会自动关闭: 没有引用指向且没有剩余线程的线程池 核心线程数为0且存活时间大于零的线程池 Executors.newCachedThrteadPool( ...
- 一个老程序员, 两个小时能用corsur做出什么样的东西
背景 最近cosur太火了, 很多没开发背景的人也直接说0基础建站了, 互联网项目的门槛越高越低. 第一次看到一个行业拼命卷自己的. 作为一个16年的老程序员了, 肯定得试试这款颠覆性的产品. 在上 ...
- 图解JavaScript原型:原型链及其分析 | JavaScript图解
忽略该图的细节(如内存地址值没有用二进制) 以下是对该图进一步的理解和总结 1. JS对象概念的辨析 对象是什么:保存在堆中一块区域,同时在栈中有一块区域保存其在堆中的地址(也就是我们通常说的该变量指 ...
- Mysql基线核查
查看版本信息 select @@version 查看默认创建的测试库和测试用户 show databases like "test%"; select * from mysql.u ...
- [计算机组成原理] 字符集编码: Unicode 字符集(UTF8/UTF16/UTF32) 和 `BOM`(Byte Order Mark/字节序标记) / UnicodeTextUtils
Unicode字符集 Unicode 字符集的 BOM := Byte Order Mark := 字符顺序标记 BOM(Byte Order Mark)在分析unicode之前,先把bom(byte ...
- Elastic学习之旅 (9) 结构化搜索
大家好,我是Edison. 上一篇:基于Term和全文的ES查询 结构化数据 结构化搜索(Structured Search)是指对结构化数据的搜索,那么,什么数据是结构化的呢? ES中日期.布尔类型 ...
- List集合详解
List集合是有序的,可重复的元素.里面每个元素都有索引,通过索引访问元素. List接口是Colletion的子接口,自然可以用里面的方法.额外的增加了通过索引访问集合元素的方法.如下 packag ...
- C# 抛出异常代码应该避免使用 System.Exception或ApplicationException
在.NET开发中,异常处理是确保程序健壮性和可靠性的关键部分.然而,许多开发者在编写代码时,可能会默认使用 System.Exception 或 ApplicationException 来抛出异常. ...