一次vaccum导致的事故】的更多相关文章

1. 问题出现 晚上9点,现场报系统查询慢,运维查询zabbix后发现postgres最近几天的IOWait很大 2. 追踪问题 查询数据库,发现很多SQL堵住了 原因是真正创建index,导致表锁住了,其他所有操作都block住了. 将这个操作取消掉后,发现系统自动将这个表进行autovacuum,很多SQL又堵住了.手工将vacuum停掉后,系统好了一点点,但还是较之前慢. 其中一个SQL 执行的频率很高,但一直需要执行很长时间: 19014 | sxacc-devices | Access…
事故经过: 1  15:18收到短信报警:国际酒店调用OMS queryGorderOrderList方法失败:成单接口调用OMS获取token失败. 2  查看checkList发现15:18开始发现调用OMS 订单列表接口响应时间明显变长. 3  业务反馈国际酒店MIS系统查询不到数据,也无法导出数据.怀疑是因为这个引起的. 登录ihotelMs系统 IhotelMis调用OMS返回errorCode 总共调用OMS出现问题3000多次,并且还在调用. 4  查看ihotelMs cpu使用…
如果对您有用记得关注,更多干货. 今天上午刚到公司,就有同事在公司群里反映某个计划任务出现问题了.我就怀着刨根问底的心,去查看了log.发现挺有意思的一个问题,PHP内存溢出导致脚本执行失败.那就一起来看个究竟吧! 首先查看了计划任务的Log 从报错信息字面意思可以看出,允许的134217728 bytes的内存已经用尽,还要试图分配12961640 bytes内存. 给你(当前脚本)分配的内存你已经用完了,你还想问系统要内存.系统这时想对你说: 地主家也没有余粮啊(借用葛优大爷的一句话) 模拟…
前言 zabbix-server昨天出了个问题,不停的重启.昨天摆弄到晚上也不搞清楚原因,按照网上说的各种操作,各种CacheSize.TimeOut.StartPollers都改了,还有什么Include的日志也不贴说个丢,,,想着今天一早来处理下,结果出了生产事故. 刚好最近超融合不稳定,凌晨的时候,生产环境有台服务器(注册中心和配置中心)无故重启,然后导致一系列的问题,这个不在这里赘述,来讲一下zabbix这个事吧. 环境 CentOS Linux release 7.6.1810 (Co…
这是悟空的第 152 篇原创文章 官网:www.passjava.cn 你好,我是悟空. 上次我们项目不是把 MySQL 高可用部署好了么,MySQL 双主模式 + Keepalived,来保证高可用.简单来说就是有两个 MySQL 主节点,分别有两个 Keepalived 安装在宿主机上监控 MySQL 的状态,一旦发现有问题,就重启 MySQL,而客户端也会自动连接到另外一台 MySQL. 详情可以看悟空写的这篇:实战 MySQL 高可用架构 这次是我们在项目中遇到的一次事故,来一起复盘下吧…
https是当下的网站的主流趋势,甚至像苹果这样的大公司,则完全要求用户必须使用https地址. 然而对于以前http链接来说,我们往往就存在一个兼容性问题,因为你不可能一下就全部切换过去,应该在很长一段时间内,https与http将共存. https与http共存的场景有如: 1. app已经发布出去,其调用接口的地址为http的,那么这是必须兼容的. 2. app中嵌入了h5页面,而这页面在以前的设计中是使用http访问的,如果换成https地址,极有可能将导致h5页面无法打开. 3. 对于…
导语 昨天上午,微信在广州举办了微信公开课Pro.于是,精神哥这两天的朋友圈被小龙的"八不做"刷屏了.小伙伴们可能不知道,下午,微信公开课专门开设了技术分论坛.在分论坛中,微信开源了跨平台的网络组件Mars. 之前Bugly也为大家介绍过Mars的一些相关模块的内容: 微信终端跨平台组件 mars 系列(一) - 高性能日志模块xlog 微信终端跨平台组件 mars 系列(二) - 信令传输超时设计 今天,微信的小伙伴和大家一起聊聊Mars的设计原则以及发展史. 背景 2012 年中,…
1.前言 关于微信内部正在使用的网络层封装库Mars开源的消息,1个多月前就已满天飞(参见<微信Mars:微信内部正在使用的网络层封装库,即将开源>),不过微信团队没有失约,微信Mars 于2016年12月28日正式公开源码(源码地址:https://github.com/Tencent/mars,也可从本文文末的附件下载之,Android版演示程序可以从文末的附件中下载). 之前无论是微信团队还是手机QQ团队,都以腾讯公司的名义在Github开源了数个工程,但这些工程所受的关注度远不及Mar…
滴快车单单2.5倍,注册地址:http://www.udache.com/ 如何注册Uber司机(全国版最新最详细注册流程)/月入2万/不用抢单:http://www.cnblogs.com/mfryf/p/4612609.html 优步奖励低/不挣钱/怎么办?看这里:http://www.cnblogs.com/mfryf/p/4642173.html 打豪车应用:uber详细攻略(附100元优惠码:DL8T6):http://www.cnblogs.com/mfryf/p/4752167.h…
以前也做过不少项目,但从来就没有把关注的目光投向过js文件缓存.最近终于在毫无意识的情况下跳进了这个大坑. 近几个月来的工作是一个交易系统持续改进项目,迭代发布周期大约为2~3周.最近一次迭代是V16版,在礼拜三完成发布.不幸的是,第二天上午就被老大逮过去.原来老大从生产中揪出了一个bug,大致的问题如下: 系统中有一个常用的自定义控件,目的是协助选择客户,而V16版的持续改进需求是给控件增加两个筛选选项,支持不同的默认值配置.很简单的一个需求,代码修改也简单,其中一个修改是给一个js文件里边的…
昨天,一个用户打来了紧急求助电话,并且发了邮件,弄得我当时紧张了一下,以为他们那里又出了什么乱子.用户在电话里说:应用系统性能很差,运行很慢,几近“卡死”的感觉,而且重启了多次应用和数据库服务器,最终还是没解决,我们该怎么办...用户在电话里说的很急,有点糊里糊涂,我赶紧问:现在事故正发生吗?他说:不是.我更糊涂了,赶紧问:什么时候的事情?用户说:昨天的事情.我立刻放松下来,问用户:昨天的事情怎么才找我?用户说:昨天现场的工程师和维保人员,他们一开始很自信,一直在捣鼓,结果捣鼓了好几个小时也没查…
前言:一般公司git的master主干与线上代码保持一致,在使用git的时候,偶尔会发生一些莫名其妙的事情,很容易导致运营事故.so- 总结一下经常使用的git命令以及git的一些小坑,方便日后查阅   日常开发中Git的一般使用步骤: 1. 位于master分支下,先同步为最新代码   2. 创建并切换到新的本地分支下处理新特性abc   3. 新特性abc处理完成,假设需要交接给同事b处理,那么推送本地分支为远程分支. 如果你时间紧急,可以直接使用下面的命令 [小技巧:分支推送顺序的写法是<…
http://tech.meituan.com/hadoop-security-practice.html 前言 在2014年初,我们将线上使用的 Hadoop 1.0 集群切换到 Hadoop 2.2.0 稳定版, 与此同时部署了 Hadoop 的安全认证.本文主要介绍在 Hadoop 2.2.0 上部署安全认证的方案调研实施以及相应的解决方法. 背景 集群安全措施相对薄弱 最早部署Hadoop集群时并没有考虑安全问题,随着集群的不断扩大, 各部门对集群的使用需求增加,集群安全问题就显得颇为重…
PLSQL Developer软件使用大全 第一章 PLSQL Developer特性 PL/SQL Developer是一个集成开发环境,专门面向Oracle数据库存储程序单元的开发.如今,有越来越多的商业逻辑和应用逻辑转向了Oracle Server,因此,PL/SQL编程也成了整个开发过程的一个重要组成部分.PL/SQL Developer侧重于易用性.代码品质和生产力,充分发挥Oracle应用程序开发过程中的主要优势. PL/SQL Developer主要特性: PL/SQL编辑器,功能…
前言 说到分布式缓存,可能大多数人脑海浮现的就是redis了,为什么redis能够在竞争激烈的缓存大战中脱颖而出呢?原因无非有一下几点:性能好,丰富的特性跟数据结构,api操作简单.但是用的人多了,就会出现很多不规范或者疏忽的地方,严重的时候甚至会导致生产事故,所以我们有必要来聊聊在Redis使用过程中的一些“正确姿势“. 切忌裸奔 大家别笑... 很多初学者或者没经验的开发人员在服务器上用root用户装了redis以后,打开默认端口直接就愉快的运行起来了,开放了外网及默认端口的连接,甚至对于生…
Intro 我司本小厂,每个员工都是身兼数职,所以开发人员直接登录线上服务器改东西是常态.有些开发人员,自持水平较高(的确水平也是较高,但缺乏对系统的敬畏),所以总是越俎代庖,改一些本身应该是线上运维人员改动的配置.本文提到的 /etc/security/limits.conf 两次改错导致的事故,皆是因为于此. In details The first time 第一次是在 /etc/security/limits.conf 中加了两句: * soft nofile unlimited * h…
本文由云+社区发表 作者:冯伟源 作者:冯伟源,高级工程师,腾讯云Redis系统运维负责人.6年DBA经验,一直从事SQL优化.实例调优.数据库架构.海量数据库集群运维.运营平台建设和管理等工作.为 QQ.Qzone.QQ音乐.微云.腾讯云等业务提供数据库服务. 导语:腾讯云Redis自2015年诞生以来,爆发式增长,为上万家客户提供服务.作者作为唯一的运维负责人,面对三大挑战时如何破解? 元信息的一致性管理 万台设备高效运维 如何实现智能调度 解读腾讯云Redis 腾讯云Redis是基于腾讯内…
跳板机概述: 跳板机就是一台服务器,开发或运维人员在维护过程中首先要统一登录到这台服务器,然后再登录到目标设备进行维护和操作 跳板机缺点:没有实现对运维人员操作行为的控制和审计,使用跳板机的过程中还是会出现误操作.违规操作导致的事故,一旦出现操作事故很难快速定位到原因和责任人:  堡垒机概述: 堡垒机,即在一个特定的网络环境下,为了保障网络和数据不受来自外部和内部用户的入侵和破坏,而运用各种技术手段实时收集和监控网络环境中每一个组成部分的系统状态.安全事件.网络活劢,以便集中报警.及时处理及审计…
目录 1. tomcat 启动慢 1.1 tomcat 获取随机值阻塞 1.2 tomcat 需要部署的web应用程序太多 1.3 tomcat启动内存不足 2 Connector 调优 2.2 Connector 其它属性调优 2.3 Host 属性调优 2.3 tomcat线程关闭不掉调优(代码层) 2.4 AJP 连接器禁用 3 JVM 设置 1. tomcat 启动慢 在线上环境中,我们经常会遇到类似的问题,就是tomcat 启动比较慢,查看内存和cpu,io都是正常的,但是启动很慢,有…
原文地址:https://www.cnblogs.com/lhrbest/p/6493218.html 第一章 PLSQL Developer特性 PL/SQL Developer是一个集成开发环境,专门面向Oracle数据库存储程序单元的开发.如今,有越来越多的商业逻辑和应用逻辑转向了Oracle Server,因此,PL/SQL编程也成了整个开发过程的一个重要组成部分.PL/SQL Developer侧重于易用性.代码品质和生产力,充分发挥Oracle应用程序开发过程中的主要优势. PL/S…
前面的一篇文章<微软.谷歌.亚马逊.Facebook等硅谷大厂91个开源软件盘点(附下载地址)>列举了国外8个互联网公司(包括微软.Google.亚马逊.IBM.Facebook.Twitter.eBay.VMware)的开源软件项目,今天我们来盘点一下国内几个体量较大的互联网大厂(腾讯.百度.阿里.美团点评.华为)都有哪些开源软件.快点Mark起来并转发给需要的人吧.   百度开源软件    1.ECharts:JavaScript 图表库  ECharts是一款由百度前端技术部开发的,基于…
前言 在2014年初,我们将线上使用的 Hadoop 1.0 集群切换到 Hadoop 2.2.0 稳定版, 与此同时部署了 Hadoop 的安全认证.本文主要介绍在 Hadoop 2.2.0 上部署安全认证的方案调研实施以及相应的解决方法. 背景 集群安全措施相对薄弱 最早部署Hadoop集群时并没有考虑安全问题,随着集群的不断扩大, 各部门对集群的使用需求增加,集群安全问题就显得颇为重要.说到安全问题,一般包括如下方面: 用户认证(Authentication)即是对用户身份进行核对, 确认…
网上看到关于微信官方的跨平台跨业务的终端基础组件Mars的介绍文章,转载这这里.源代码: https://github.com/Tencent/mars作者:男人链接:https://zhuanlan.zhihu.com/p/24614843来源:知乎著作权归作者所有.商业转载请联系作者获得授权,非商业转载请注明出处. 1.前言 关于微信内部正在使用的网络层封装库Mars开源的消息,1个多月前就已满天飞(参见<微信Mars:微信内部正在使用的网络层封装库,即将开源>),不过微信团队没有失约,微…
欢迎大家前往腾讯云+社区,获取更多腾讯海量技术实践干货哦~ 作者:冯伟源,高级工程师,腾讯云Redis系统运维负责人.6年DBA经验,一直从事SQL优化.实例调优.数据库架构.海量数据库集群运维.运营平台建设和管理等工作.为 QQ.Qzone.QQ音乐.微云.腾讯云等业务提供数据库服务. 导语:腾讯云Redis自2015年诞生以来,爆发时增长,为上万家客户提供服务.作者作为唯一的运维负责人,面对三大挑战是如何破解? 元信息的一致性管理 万台设备高效运维 如何实现智能调度 解读腾讯云Redis 腾…
转载美团博客:https://tech.meituan.com/5whys-method.html 前言 网站的质量和稳定性对于用户和公司来说至关重要,但是在网站的快速发展过程中,由于各种原因导致事故不可避免的发生,这些大大小小的事故对公司难免会造成一些负面的影响,为了避免同类事故的再次发生,美团的工程师们从事故中不断学习,对每次事故进行深入分析和总结,形成了一种Casestudy文化,并结合一套科学的分析方法-5whys分析法,深入分析事故背后的根本原因和流程漏洞,使得事故发生的频率大大降低.…
jumpserver概述 跳板机概述: 跳板机就是一台服务器,开发或运维人员在维护过程中首先要统一登录到这台服务器,然后再登录到目标设备进行维护和操作: 跳板机缺点:没有实现对运维人员操作行为的控制和审计,使用跳板机的过程中还是会出现误操作.违规操作导致的事故,一旦出现操作事故很难快速定位到原因和责任人: Jumpserver概述: Jumpserver是一款使用Python, Django开发的开源跳板机系统,为互联网企业提供了认证,授权,审计,自动化运维等功能. 官方网址: http://w…
A. jumpserver概述 跳板机概述: 跳板机就是一台服务器,开发或运维人员在维护过程中首先要统一登录到这台服务器,然后再登录到目标设备进行维护和操作: 跳板机缺点:没有实现对运维人员操作行为的控制和审计,使用跳板机的过程中还是会出现误操作.违规操作导致的事故,一旦出现操作事故很难快速定位到原因和责任人: 堡垒机概述: 堡垒机,即在一个特定的网络环境下,为了保障网络和数据不受来自外部和内部用户的入侵和破坏,而运用各种技术手段实时收集和监控网络环境中每一个组成部分的系统状态.安全事件.网络活…
搭建jumperserver堡垒机管理万台服务器-1 1  Jumpserver堡垒机概述-部署Jumpserver运行环境 2  安装Coco组件 3  安装Web-Terminal前端-Luna组件-配置Nginx整合各组件 4  jumpserver平台系统初始化 5  实战:使用jumpserver 管理数万台服务器 部署准备: 序号 服务器名 IP 角色 1 k5 10.27.17.62 jumbserver .redis.mariadb.koko.Web Terminal  2  …
关键词:mysql逻辑备份介绍,mysqldump,mysqldump最佳实践 我的相关文章:https://www.cnblogs.com/gered/p/9721696.html 正文 1.mysql逻辑备份介绍 [1.1]备份内容:数据库的结构定义语句+数据内容的插入语句,备份出来的文件可以编辑 [1.2]使用场景:数据量较少的库,比较适合100G数据量以内的 逻辑备份的特点 (1)sql语句组成的文件,可以编辑截取部分单独使用. (2)备份文件比物理文件小 (3)可以细化到表/表的内容…
2020年1月7日,京东由于优惠券设置错误,导致大量产品以0元或者超低价成交,并且发货.网传小家电被薅24万件,损失损失金额高达7000多万.很多网友表示收到货了,在网上晒出到货截图.下面为购买截图: 之后,京东做出关于此事件的说明,将拦截订单,召回发货商品. <关于2020-1-7,大量0元单活动说明> 尊敬的京东用户大家好,因为1月7日优惠券设置错误原因,导致大量产品以0元或者超低价的情况下成交,并且发货. 目前对此京东已经做出处理方案. 1,针对未发货的订单,京东已经做拦截处理,并且后续…