使用./bk_install saas-o 安装发现bk_monitor(蓝鲸监控)组件报错“ERROR deploy failed: timeout”。

单独尝试安装各个组件:

#故障自愈
[root@rbtnode1 install]# ./bk_install saas-o bk_fta_solutions #日志检索
[root@rbtnode1 install]# ./bk_install saas-o bk_log_search #节点管理
[root@rbtnode1 install]# ./bk_install saas-o bk_nodeman #标准运维
[root@rbtnode1 install]# ./bk_install saas-o bk_sops #蓝鲸监控
[root@rbtnode1 install]# ./bk_install saas-o bk_monitor

发现前面几个bk_fta_solutions、bk_log_search、bk_nodeman、bk_sops都可以安装成功,唯独对bk_monitor安装,依然报错如下:

[root@rbtnode1 install]# ./bk_install saas-o bk_monitor
省略输出..
2020-03-09 13:27:36 125 INFO check deploy result. retry 132
2020-03-09 13:27:39 125 INFO check deploy result. retry 133
2020-03-09 13:27:39 134 ERROR deploy failed: timeout
[192.168.1.6]20200309-132739 153 Deploy saas bk_monitor failed.
[192.168.1.6]20200309-132739 47 Abort

进一步查看agent日志(/data/bkce/logs/paas_agent/agent.log),最终因为部署任务timeout而终止,未见其他明显报错:

2020/03/09 13:24:57 job.go:279: Building wheels for collected packages: gevent, netifaces, arrow, msgpack-python, wrapt, itypes, backports.shutil-get-terminal-size, simplegeneric, scandir

2020/03/09 13:24:57 job.go:279:   Running setup.py bdist_wheel for gevent: started

2020/03/09 13:27:32 job.go:279:   Running setup.py bdist_wheel for gevent: still running...

2020/03/09 13:27:38 job.go:297: Deployment task execution timeout

查了些网上资料,说是因为机器配置不够,增加核数为6即可解决,但实际我测试无效,报错不变;

在蓝鲸官方群咨询,客服给出一个解决方案:

但是实际这个Case和我这里遇到的情况并不一样,因为我这没有看到那个error。

晚上重新整理下思路,借鉴案例中清理环境的方式,然后重新部署,这次agent.log看到报错信息了:

2020/03/10 02:29:54 job.go:279:   File "/opt/py27_e/lib/python2.7/site-packages/pymysql/connections.py", line 906, in _read_packet

2020/03/10 02:29:54 job.go:279:     packet.check_error()

2020/03/10 02:29:54 job.go:279:   File "/opt/py27_e/lib/python2.7/site-packages/pymysql/connections.py", line 367, in check_error

2020/03/10 02:29:54 job.go:279:     err.raise_mysql_exception(self._data)

2020/03/10 02:29:54 job.go:279:   File "/opt/py27_e/lib/python2.7/site-packages/pymysql/err.py", line 120, in raise_mysql_exception

2020/03/10 02:29:54 job.go:279:     _check_mysql_exception(errinfo)

2020/03/10 02:29:54 job.go:279:   File "/opt/py27_e/lib/python2.7/site-packages/pymysql/err.py", line 115, in _check_mysql_exception

2020/03/10 02:29:54 job.go:279:     raise InternalError(errno, errorvalue)

2020/03/10 02:29:54 job.go:279: django.db.utils.InternalError: (1049, u"Unknown database 'bkdata_monitor_alert'")

2020/03/10 02:29:55 job.go:304: error waiting for Cmd exit status 1

这提示居然是没有这个名称为bkdata_monitor_alert的数据库??

结合之前的agent日志是确认有建表操作成功的,说明是环境清理操作很可能把对应组件的库也给删除了。

这里先不深究,直接查看当前的数据库列表:

MySQL [(none)]> show databases;
+--------------------+
| Database |
+--------------------+
| information_schema |
| bk_fta_solutions |
| bk_log_search |
| bk_monitor |
| bk_nodeman |
| bk_sops |
| bksuite_common |
| job |
| jobLog |
| mysql |
| open_paas |
| performance_schema |
| sys |
+--------------------+
13 rows in set (0.00 sec)

果然没有这个bkdata_monitor_alert库,这里先直接尝试创建一个空库试下:

MySQL [(none)]> create database bkdata_monitor_alert character set utf8;
Query OK, 1 row affected (0.01 sec)

再次尝试bk_monitor的安装:

# 再次安装bk_monitor
[root@rbtnode1 install]# ./bk_install saas-o bk_monitor # 监控agent.log
[root@rbtnode1 paas_agent]# pwd
/data/bkce/logs/paas_agent
[root@rbtnode1 paas_agent]# tail -20f agent.log

发现这次agent.log日志最终显示Job正常完成了:

省略部分日志..

2020/03/10 02:45:38 job.go:279:   Applying sessions.0001_initial... OK

2020/03/10 02:45:38 job.go:279: ------change db success------

2020/03/10 02:47:25 job.go:279: ------ start app server ------

2020/03/10 02:47:25 job.go:279: su: ignore --preserve-environment, it's mutually exclusive to --login.

2020/03/10 02:47:25 job.go:279: /etc/profile: line 77: ulimit: open files: cannot modify limit: Operation not permitted

2020/03/10 02:47:25 job.go:279: /etc/profile: line 78: ulimit: open files: cannot modify limit: Operation not permitted

2020/03/10 02:47:25 job.go:279: /etc/profile: line 79: ulimit: open files: cannot modify limit: Operation not permitted

2020/03/10 02:47:25 job.go:279: /etc/profile: line 80: ulimit: open files: cannot modify limit: Operation not permitted

2020/03/10 02:47:26 job.go:279: Last login: Mon Mar  9 14:01:54 CST 2020

2020/03/10 02:47:28 job.go:279: Job Done

2020/03/10 02:47:28 job.go:306: RunJob end ... ...

赶紧去看下安装的窗口,发现这次bk_monitor终于安装成功了:

[root@rbtnode1 install]# ./bk_install saas-o bk_monitor
省略部分日志.. 2020-03-10 02:47:24 125 INFO check deploy result. retry 107
2020-03-10 02:47:26 125 INFO check deploy result. retry 108
2020-03-10 02:47:29 125 INFO check deploy result. retry 109
2020-03-10 02:47:30 131 INFO bk_monitor have been deployed successfully
[192.168.1.6]20200310-024730 151 SaaS application bk_monitor has been deployed successfully
[192.168.1.6]20200310-024730 56 install saas-o(bk_monitor) done

登陆蓝鲸的工作台,也确认这次蓝鲸监控组件已经安装成功,可以正常操作了。

蓝鲸:安装SaaS组件bk_monitor失败分析解决的更多相关文章

  1. 阿里云的云虚拟主机安装dede提示数据库连接失败的解决办法

    问题描述 阿里云的云虚拟主机安装dede提示数据库连接失败 问题分析 连接数据库失败,可能数据库密码不对或数据库服务器出错! 解决方案 1.通过ftp软件查看htdocs/data/common.in ...

  2. window 7上安装Visual Studio 2017失败的解决方法

    今天在办公电脑上windows 7系统上装Visual Studio 2017企业版的时候遇到了一个让人懵逼的错误. 为啥说懵逼呢,因为昨天楼主在台式机上同样安装2017没有任何问题啊,台式机上是wi ...

  3. Xshell安装教程及Xshell安装程序集组件时出错的解决方法

    部分小伙伴在安装Xshell的时候可能会遇到这个问题:“Xshell5安装程序集组件{0D7E67F6-1A6A-3A26-AF95-B8E83DDCCC3F}时出错.HRESULT0x80070BC ...

  4. 安装SQL Sever数据库失败的解决办法

    视频链接:https://www.bilibili.com/video/av12651739/ 我安装了SQL Sever2014.遇到了好多好多问题啊,整的我都快疯了.大致遇到的问题和解决办法如下. ...

  5. Windows下安装sass和compass失败的解决办法

    sass依赖Ruby,所以,首先得先安装个Ruby sass的安装步骤: 在安装的时候,请勾选Add Ruby executables to your PATH这个选项,添加环境变量,不然以后使用编译 ...

  6. VMware安装Ghost版Win10 失败的解决方法

    第一个失败点,是分区之后,重启,提示alt+ctrl+del要求重启,然后就是无限提示,解决方案:在重启读条的时候,按Esc,或者F2调整系统启动优先级读取位置,设置为CD的那个,就可以进入到安装系统 ...

  7. STM32cubeMX安装FW_F4容易出错失败的解决办法

    在CUBEMXV5.30安装F4的支持包V1.241的反复失败,无法自动生成代码.后来发现了一种办法: 在stm32的官网下载V1.24.0和en.patch_cubefw_f4.zip(V1.24. ...

  8. npm 安装或更新模块失败的解决办法

    头一次关注npm,在刚刚安装的机子上使用更新指令却报错,我还以为是SHA512有什么问题,后来发现是因为一些网络原因,所以,如果出现错误,务必修改默认配置为国内镜像,但是在publish之前,记得要改 ...

  9. GitHub安装缓慢甚至下载失败的解决办法

    1.打开控制面板→ Internet 选项→“安全”选项卡. 2.选择“受信任的站点”→点击“站点”按钮. 3.弹出的窗口中的文本框中输入点击“添加” https://github-windows.s ...

  10. Microsoft Visual Studio Web 创作组件安装失败的解决方法

    在网上查一下说是Office2007的问题.我把Office2007卸载了还是不行. 然后用Windows Install Clean Up工具清理,还是不行. 郁闷了.然后在安装包中的下面路径下找到 ...

随机推荐

  1. SpringBoot 动态数据源

    SpringBoot 实现动态数据源切换 Spring Boot + Mybatis Plus + Druid + MySQL 实现动态数据源切换及动态 SQL 语句执行. 项目默认加载 applic ...

  2. C# 排序算法2:选择排序

    选择排序法 ,是在要排序的一组数中,选出最小(或最大)的一个数与第一个位置的数交换:在剩下的数当中找最小的与第二个位置的数交换,即顺序放在已排好序的数列的最后,如此循环,直到全部数据元素排完为止. 原 ...

  3. java基础-集合-day14

    目录 1. 数据结构 算法 2. 本章的重点 集合 3. collections 4. list 5. 泛型 6. 泛型通配符 7. linkedList 8. 模拟linkedList源码 --面试 ...

  4. centos7 systemctl配置开机自启动服务

    centos7使用systemctl替代原来/etc/init.d,按官方的说法是提高系统服务的运行效率.服务配置更加简单易用,对于一些自定义的服务来配置开机自启动,是真的香! 概念理解 它是服务管理 ...

  5. Solon v2.6.5 发布(助力信创)

    Solon 是什么框架? Java "生态级"应用开发框架.从零开始构建,有自己的标准规范与开放生态(历时六年,具备全球第二级别的生态规模). 相对于 Spring,有什么特点? ...

  6. 基于python+django的酒店预定网站-酒店管理系统

    该系统是基于python+django开发的酒店预定管理系统.适用场景:大学生.课程作业.毕业设计.学习过程中,如遇问题可在github给作者留言. 演示地址 前台地址: http://hotel.g ...

  7. 什么是 doris,为什么几乎国内大厂都会使用它

    转载至我的博客 https://www.infrastack.cn ,公众号:架构成长指南 今天给各位分享一个非常牛的实时分析型数据库Apache Doris,几乎国内的一二线大厂都在使用它做数据分析 ...

  8. [转帖]【数据库架构】NewSQL和PGXC

    数据库架构风格 数据库的基本架构 分库分表方案 分布式事务和跨节点查询 PGXC NewSQL:原生分布式数据库 总结 数据库的两种架构风格:NewSQL(代表Google Spanner).Prxo ...

  9. [转帖]Nginx 保留 Client 真实 IP

    https://lqingcloud.cn/post/nginx-01/#:~:text=%E5%9C%A8%20Nginx%20%E4%B8%AD%E5%8F%AF%E4%BB%A5%E9%80%9 ...

  10. [转帖]django使用html渲染页面样式+数据库管理员的创建

    一.django页面渲染 1.在templates中创建html格式的文件-index.html,在该文件中添加body,设置样式,比如: <h1 style = "backgroun ...