1、etcd没有启动的

[root@mcwk8s03 ~]# kubectl get nodes
Unable to connect to the server: context deadline exceeded

启动之后就可以使用了

[root@mcwk8s03 ~]# kubectl get nodes
NAME STATUS ROLES AGE VERSION
mcwk8s05 NotReady <none> 404d v1.15.12
mcwk8s06 NotReady <none> 404d v1.15.12
[root@mcwk8s03 ~]#

2、pod一直重启。首先排查oom,上次重启原因

Containers:
fab-browser-api:
Container ID: docker://9xx
Image: roc.xx79
Image ID: docxxd
Port: 9090/TCP
Host Port: 0/TCP
Command:
java
-Xms1G
-Xmx2G
-XX:MetaspaceSize=64M
-XX:MaxMetaspaceSize=128M
-Xss256K
-XX:+UseConcMarkSweepGC
-XX:CMSFullGCsBeforeCompaction=5
-XX:+UseCMSCompactAtFullCollection
-XX:CMSInitiatingOccupancyFraction=80
-XX:+HeapDumpOnOutOfMemoryError
-XX:HeapDumpPath=./logs/
-DserverName=fxx-api
-jar
/app.jar
State: Running
Started: Mon, 18 Dec 2023 10:12:11 +0800
Last State: Terminated
Reason: OOMKilled
Exit Code: 137
Started: Mon, 18 Dec 2023 04:09:38 +0800
Finished: Mon, 18 Dec 2023 10:12:09 +0800
Ready: True
Restart Count: 36
Limits:
cpu: 1
memory: 2000Mi
Requests:
cpu: 300m
memory: 800Mi
Liveness: http-get http://:9090/argus/health delay=120s timeout=1s period=20s #success=1 #failure=6
Readiness: http-get http://:9090/argus/health delay=120s timeout=1s period=20s #success=1 #failure=6

3、k8s排查问题思路

https://zhuanlan.zhihu.com/p/421693641

https://zhuanlan.zhihu.com/p/651299187

https://blog.csdn.net/weixin_45727359/article/details/128024686

4、有些服务启动慢,默认的健康检查时间需要调整长一些,等服务启动之后再健康检查

现象:发布应用,新起的pod,一直没有启动起来,反复重启。

kubectl describe pod ,查看上次报错,并且事件里提示健康检查没有通过

    State:          Running
Started: Tue, 09 Jan 2024 10:32:56 +0800
Last State: Terminated
Reason: Error
Exit Code: 143
Started: Tue, 09 Jan 2024 10:29:03 +0800
Finished: Tue, 09 Jan 2024 10:32:55 +0800
Ready: True
Restart Count: 1

Warning  Unhealthy  6m30s (x22 over 10m)  kubelet, qa-kube003.xx.x.com  Readiness probe failed:
Get http://10.96.x.x:9090/argus/health: dial tcp 10.x.x.x:9090: connect: connection refused

解决方法:容器的健康检查失败,容器多次重启,偶尔才起来。这次这个是服务启动需要3分钟多,而健康检查200s的时候就开始了。服务还没正常启动起来就检测,导致探测失败。将探测时间延长到250s之后,再次发布,就没有发生重启的现象了,直接就好了

kubectl edit deploy ai-xxl-deploy

复制配置,然后在服务发布里面添加上配置,并且将时间改为250s,发布应用

k8s错误集合的更多相关文章

  1. springboot整合mybatis步骤以及错误集合

    1.首先在springboot项目中的pomx文件引入官方的依赖 <groupId>org.mybatis.spring.boot</groupId> <artifact ...

  2. AndroidStudio NDK配置使用以及错误集合

    Error:Execution failed for task ':app:transformNative_libsWithStripDebugSymbolForDebug'. > java.l ...

  3. jq ajax遇到的错误集合

    一.错误: Uncaught InvalidStateError: Failed to read the 'selectionDirection' property from 'HTMLInputEl ...

  4. ssh框架搭建错误集合

    1,把jsp放入到WEB-INF/view目录下,struts2.xml配置<result name="success">/WEB-INF/view/home.jsp& ...

  5. VS(C++)编程遇到的错误集合

    编译错误 1.error C1010: 原因:没有在文件开头添加include "stdafx.h". 2.error C2440: "=": 无法从" ...

  6. SQL访问EXCEL错误集合

    --行集函数 --1, OPENDATASOURCE 环境:WIN7,SQL 2014,OFFICE 2013 SELECT * FROM OPENDATASOURCE('Microsoft.ACE. ...

  7. Hibernate学习笔记--Hibernate框架错误集合及解决

    错误1:MappingException: Unknown entity解决方案 http://jingyan.baidu.com/article/e75aca8552761b142edac6cf.h ...

  8. IOS 错误集合以及解决办法(持续整理中)

    1 . 如下错误: app:resource fork, Finder information, or similar detritus not al site:forums.developer.ap ...

  9. Spring《错误集合,总结更新》

    1.这几天配置springmvc 使用注解,并且自动扫描注解,当我单个配置,不用自动扫描,出现下面错误,找了很多人跟我看,配置也没问题,但是就是显示不出东西,所说的类也去看了,没有问题 這是我的模拟数 ...

  10. 【Android应用开发】Android Studio 错误集锦 -- 将所有的 AS 错误集合到本文

    . 一. 编译错误 1. "AndroidManifest.xml file not found" 错误 (1) 报错信息 报错信息 : -- Message Make : Inf ...

随机推荐

  1. Java实现打包压缩文件或文件夹生成zip以实现多文件批量下载

    有时候在系统中需要一次性下载多个文件,但逐个下载文件比较麻烦.这时候,最好的解决办法是将所有文件打包成一个压缩文件,然后下载这个压缩文件,这样就可以一次性获取所有所需的文件了. 下面是一个名为Comp ...

  2. 什么是报表工具?和 EXCEL 有什么区别?

    报表是什么? 带数据的表格和图表就都是报表,像工资表,考勤表,成绩表,资产负载表等等都是报表. 那报表工具,顾名思义就是用来做报表的工具,那 Excel 是不是也算报表工具?广义上讲当然也算.但 IT ...

  3. 基于Material Design风格开源、易用、强大的WPF UI控件库

    前言 今天大姚给大家分享一款基于Material Design风格开源.免费(MIT License).易于使用.强大的WPF UI控件库:MaterialDesignInXamlToolkit. 项 ...

  4. 分类算法(Classification Algorithm)需求记录

    [toc] 比如说,在WEB扫描器场景中.一个扫描器在扫描过程中,它可以自动识别接口类型并采用相应分类规则进行漏洞检测的算法,这种通常属于一种称为"智能扫描"(Intelligen ...

  5. 无缝衔接 gRPC 与 dubbo-go

    最近我们 dubbo-go 社区里面,呼声很大的一个 feature 就是对 gRPC 的支持.在某位大佬的不懈努力之下,终于弄出来了. 今天我就给大家分析一下大佬是怎么连接 dubbo-go 和 g ...

  6. 重磅官宣:Nacos2.0发布,性能提升10倍

    简介: ​Nacos2.0 作为一个跨代版本,彻底解决了 Nacos1.X 的性能问题,将性能提升了 10 倍. 作者:席翁 继 Nacos 1.0 发布以来,Nacos 迅速被成千上万家企业采用,并 ...

  7. 配置审计(Config)配合开启OSS防盗链功能

    简介: 本文作者:紫极zj 本文将主要介绍利用[配置审计]功能,如何快速发现企业上云过程中,针对未配置防盗链的 OSS Bucket 定位及修复案例. 前言 配置审计(Config)将您分散在各地域的 ...

  8. 多任务学习模型之ESMM介绍与实现

    ​简介:本文介绍的是阿里巴巴团队发表在 SIGIR'2018 的论文<Entire Space Multi-Task Model: An Effective Approach for Estima ...

  9. Dubbo-go v3.0 正式发布 ——打造国内一流开源 Go 服务框架

    ​简介:Dubbo-go 是常新的,每年都在不断进化.介绍 Dubbo-go 3.0 工作之前,先回顾其过往 6 年的发展历程,以明晰未来的方向. ​ 作者 | 李志信 来源 | 阿里技术公众号 作者 ...

  10. 友盟+U-APM 移动应用性能体验报告:Android崩溃率达0.32%,OPPO 、华为、VIVO 崩溃表现良好

    简介: 应用性能稳定是良好用户体验中非常关键的一环,而现实情况却是应用崩溃.卡顿.加载缓慢.页面白屏等问题,频频出现在用户的真实体验之中,成为影响业务表现的直接杀手.为此,应用性能管理(APM)正在国 ...