【原创】大叔问题定位分享（30）mesos agent启动失败：Failed to perform recovery: Incompatible agent info detected

【【原创】大叔问题定位分享（30）mesos agent启动失败：Failed to perform recovery: Incompatible agent info detected】的更多相关文章

【原创】大叔问题定位分享（30）mesos agent启动失败：Failed to perform recovery: Incompatible agent info detected

mesos agent启动失败,报错如下: Feb 15 22:03:18 server1.bj mesos-slave[1190]: E0215 22:03:18.622994 1192 slave.cpp:7311] EXIT with status 1: Failed to perform recovery: Incompatible agent info detected....Feb 15 22:03:18 server1.bj mesos-slave[1190]: ---------…

【原创】大叔问题定位分享（28）openssh升级到7.4之后ssh跳转异常

服务器集群之间忽然ssh跳转不通 # ssh 192.168.0.1The authenticity of host '192.168.0.1 (192.168.0.1)' can't be established.RSA1 key fingerprint is 07:e4:54:79:62:60:22:c2:72:23:21:00:54:a0:90:79.Are you sure you want to continue connecting (yes/no)? 输入yes之后要求输入密码,但…

MyCat启动失败 Error: Exception thrown by the agent : java.net.MalformedURLException: Local host name unknown: java.net.UnknownHostException: rebirth.a: rebirth.a: unknown error

在使用Nactive连接MyCat的时候发现怎么连接都不ok,明明已经启动了(实际上启动失败了)! 粗心的我,后来看了下日志,果然,启动失败了 Error: Exception thrown by the agent : java.net.MalformedURLException: Local host name unknown: java.net.UnknownHostException: rebirth.a: rebirth.a: unknown error 意思域名解析失败,需要在hos…

【原创】大叔问题定位分享（13）HBase Region频繁下线

问题现象:hive执行sql报错 select count(*) from test_hive_table; 报错 Error: java.io.IOException: org.apache.hadoop.hbase.client.RetriesExhaustedException: Failed after attempts=36, exceptions: Wed May 16 10:22:17 CST 2018, null, java.net.SocketTimeoutException:…

【原创】大叔问题定位分享（11）Spark中对大表子查询加limit为什么会报Broadcast超时错误

当两个表需要join时,如果一个是大表,一个是小表,正常的map-reduce流程需要shuffle,这会导致大表数据在节点间网络传输,常见的优化方式是将小表读到内存中并广播到大表处理,避免shuffle+reduce: 在hive中叫mapjoin(map-side join),配置为 hive.auto.convert.join 在spark中叫BroadcastHashJoin (broadcast hash join) Spark SQL uses broadcast join (aka…

【原创】大叔问题定位分享（7）Spark任务中Job进度卡住不动

Spark2.1.1 最近运行spark任务时会发现任务经常运行很久,具体job如下: Job Id ▾ Description Submitted Duration Stages: Succeeded/Total Tasks (for all stages): Succeeded/Total 16 (kill)treeReduce at CRFWithLBFGS.scala:160 2018/12/03 12:39:50 2.3 h 0/5 196/4723 job中正在运行的stage如下…

【原创】大叔问题定位分享（6）Dubbo monitor服务iowait高，负载高

一问题 Dubbo monitor所在服务器状态异常,iowait一直很高,load也一直很高,监控如下: iowait如图: load如图: 二分析通过iotop命令可以查看当前系统中磁盘io情况以及进程占用磁盘io的情况从中可以定位到占用io进程的pid: 通过 cat /proc/${pid}/io 可以查看一个进程具体的读写状况: 通过 ps aux|grep ${pid} 可以查到这个进程具体的命令: 通过以上命令定位到进程为dubbo的monitor进程,用jstack打印线…

【原创】大叔问题定位分享（3）Kafka集群broker进程逐个报错退出

kafka0.8.1 一问题现象生产环境kafka服务器134.135.136分别在10月11号.10月13号挂掉: 134日志 [2014-10-13 16:45:41,902] FATAL [KafkaApi-134] Halting due to unrecoverable I/O error while handling produce request: (kafka.server.KafkaApis) 135日志 [2014-10-11 11:02:35,754] FATAL […

【原创】大叔问题定位分享（29）datanode启动报错：50020端口被占用

集群中有一台datanode一直启动报错如下: java.net.BindException: Problem binding to [$server1:50020] java.net.BindException: Address already in use; For more details see: http://wiki.apache.org/hadoop/BindException 查看端口是否被占用 # netstat -tnlp|grep 50020 发现没有进程在监听50020端…

【原创】大叔问题定位分享（27）spark中rdd.cache

spark 2.1.1 spark应用中有一些task非常慢,持续10个小时,有一个task日志如下: 2019-01-24 21:38:56,024 [dispatcher-event-loop-22] INFO org.apache.spark.executor.CoarseGrainedExecutorBackend - Got assigned task 40312019-01-24 21:38:56,024 [Executor task launch worker for task 4…