今天是愚人节,而我们却被阿里云OCS愚,很多地方的缓存一直不过期,造成很多页面中的数据一直不更新.这篇博文将向您分享我们这两天遇到的OCS问题. 阿里云OCS(Open Cache Service)是阿里云提供的开放缓存服务,简单来说就是一个巨大的memcached.我们是从2013年12月12日开始使用阿里云OCS的(详见云计算之路-阿里云上:用上了开放缓存服务OCS).OCS是保证网站性能的最重要的功臣之一,而随着网站访问量的快速增长,OCS更加举足轻重.曾经有一个周末,我们因为清空了OCS…
大家好,非常抱歉!今天10:28-10:51期间由于阿里云云盾流量清洗,以及切换IP后负载均衡的带宽跑满,影响了主站的正常访问,给您造成了很大的麻烦,请您谅解! 故障的过程是这样的: 10:28,我们收到了来自阿里云云盾的通知短信: [阿里云]尊敬的用户:您的 IP 遭受外部流量攻击,已启动免费清洗服务... 以前也收到过几次这样的通知短信,根据以往的经验,这样的云盾流量清洗不会影响网站的正常访问. 可是今天收到短信后,突然发现主站www.cnblogs.com不能访问了(当时我们是通过上海电信…
使用阿里云ECS挺长一段时间了.这两天碰巧朋友小白让我一步一步教他在ECS上搭建Java+mysql+tomcat环境,所以把在这里把步骤在这简单整理了一下,以便需要的人查阅. 我购买的阿里云服务器系统是Centos 6.5. 在购买好阿里云ECS后. 1.下载XShell 2.下载XFtp 3.使用XShell链接到阿里云ECS 4.以下命令在XShell中使用,也就是通过XShell控制阿里云服务器里的操作系统 [1]常用命令pwd       查看当前目录df -h      查看当前硬盘…
(上图是今天出问题期间Web服务器性能监控图,紫色表示的是Request Execution Time) 昨天我们发布了一篇博客分享了我们这两天遇到的OCS(开放缓存服务)问题,详见云计算之路-阿里云上:愚人节被阿里云OCS愚. 后来,阿里云确认了问题的原因:在OCS升级过程中造成了写入的缓存数据过期时间丢失,只需删除这些有问题的缓存数据就不会再出现这个问题. 今天一大早访问低峰的时候,我们进行了清空OCS实例缓存的操作,解决了OCS缓存不能过期的问题. 今天中午11:30左右,园子访问速度突然…
如果您用的是微软平台,如果您准备走上云计算之路,估计您首先关心的是云服务商有没有提供合适的Windows操作系统. 这里把我们知道的知名云服务商提供的Windows操作系统列出来,供大家参考. 1. 亚马逊AWS 2. 微软Azure 3. 阿里云 4. UCloud 从中可以看出,亚马逊AWS提供的Windows操作系统最全,微软Azure反而提供的最少. 如果让我们自由选择,我们首选的是Windows Server 2012 x64英文版,备选的是Windows Server 2008 x6…
企业上云的现状与趋势 云计算,如今已经成为了像水和电一般关系到国计民生的国家基础设施.云计算为企业带了前所未有的资源交付效率和运维效率的提升,同时也用全新的技术帮助企业在新的价值网络中创造新的商业赛道.挖掘新的商业模式.越来越多的企业开始主动或被动地尝试使用云,而那些已经尝到云“甜头”的企业在加速上云节奏,不断将创新业务.非核心的企业业务.乃至企业核心业务逐步迁移上云. 企业的上云步骤,一般可分为“尝鲜”和“云化”两个阶段. 在“尝鲜”阶段,企业初始做云化,一般会从开发测试环境开始,或者选择企业…
1 摘要 本文介绍了为什么在一个好的公有云或私有云中必须要有一个编排系统来支持云上自动化,以及实现这个编排系统的困难和各家的努力.同时提供了一套实现编排系统的原型,它包括了理论分析及主体插件框架,还给出一些细节控制的建议.希望有助于大家对“资源编排&应用编排”概念有更深的了解,也希望以开放的心态与大家一起努力,使得云真的像水电一样自然和普及. 2 为什么需要云上自动化 IT领域的自动化要求无需多言,每个程序员都知道这是必须品.自动化脚本,自动化测试,自动化部署等等,都是为了程序及围绕此程序的各类…
简介: 阿里云ECS自动化运维套件架构师,深度拆解云上运维能力体系建设:自动化运维等级金字塔.自动化运维的进阶模式.DevOps的基础核心.云上标准化部署三大能力-- 序言 云计算行业已经有十多年的发展了,话题早已从"要不要上云"转向"如何用好云"."要不要"其实是一个决策性的话题,直到决策出来一个结果了,话题就算结束了.而"如何用好云"却是一个持续性的话题. 一般来说,在规划阶段开始,企业就会开始思考"如何用好云&…
写完云服务器ECS,本来想先写负载均衡的. 因为发现很多客户,都是直接将单台云服务器应用对外提供访问,如果云服务器宕机,应用就会停止服务.云服务器标称有99.95%的可用率,一年下来宕机四个多小时也是正常的.要想提升应用的可用率,就需要多台云服务器(至少两台,最好分布式两个不同的可用区),然后利用负载均衡将流量按一定规则导向后端的云服务器应用集群. 但这一篇还是决定先写写云数据库RDS,云数据库RDS有好几个曾用名.最早的名字就是RDS(阿里云的产品,大部分在命名的时候故意和亚马逊有一点微小的差…
Eclispe上使用git 1.安装git 按照下图的步骤: 安装过就不用再安装了,没有安装的安装一下! 安装完毕之后:需要做一些初始化的设置: 2.上传项目到码云上 1.首先在码云上建立一个项目 2.在eclipse中创建一个项目 然后选择git 然后会出现下面这个选项卡: 做完这些你会发现你的项目变了: 接着:点击项目右击:team->commit ,发现提交不了 这是一个大坑!! 需要做以下设置: 然后再重复上一个步骤,写上注释.然后提交,发现项目变了: 这是把本地的项目提交到本地的仓库上…
前言 昨天初次接触GIT及码云,虽然用了2个多小时才搞定,但是还是挺开心的.码云是一个可以储存我们写的代码的一个平台,而Git是一款免费.开源的分布式版本控制系统,可以敏捷高效地处理任何或小或大的项目.如果能掌握这两个工具,我们的工作效率将大大提高. 现在我就跟大家介绍一下如何安装和配置GIT以及如何上传代码到码云. 安装GIT 1.下载安装包 要安装GIT,当然少不了安装包. 英文好的同学可以自行到GIT官网下载,当然我也给大家准备了一个安装包,还是中文版的哦("'▽'"). GIT…
Espressif 乐鑫信息科技(以下简称乐鑫科技)近日在上海召开发布会,发布其旗下最新的旗舰同时也是第二代Yun on Chip(简称YoC)云上芯片ESP32.YoC云上芯片是由YunOS牵头,联合30多家集成电路产业领域合作伙伴共同推出的IoT基础设施解决方案. 本次发布的ESP32云上芯片,拥有40nm工艺.双核32位MCU,主频高达240MHz,计算能力可达600DMIPS.ESP32专为移动设备.可穿戴电子产品和IoT应用而设计,拥有业内最高水平的低功耗芯片的所有特征,例如精细分辨时…
摘要:统一身份认证(Identity and Access Management,简称IAM)是华为云上帮助您安全控制华为云资源访问权限的基础服务.通过本期云图说,您可以初步了解IAM的基本功能. 从我们登录华为云的那一刻起,就开始了与统一身份认证服务(Identity and Access Management,简称IAM)的密切接触,为啥这么说?因为我们的身份凭证就是IAM生成的.登录华为云后,我们将需要进行账号安全管理.权限管理,而这都是IAM的看家本领.同时IAM还具有资源委托.身份提供…
1983年3月15日,国际消费者联盟组织将3月15日确立为国际消费者权益日. 2019年3月15日,袋鼠云举办三周年年会. 一生二,二生三,三生万物.植树节后,万物生长. 年会现场,袋鼠云宣布成立新公司——杭州云掣科技有限公司(www.dtsre.com). 由袋鼠云CEO拖雷,袋鼠云COO江枫,云掣科技CEO丁原,袋鼠云联合创始人强哥以及云掣科技核心团队成员俊达.南方.祁幽共同开启,云掣科技正式启航. 云掣科技启航现场 云掣科技启航现场 袋鼠云联合创始人徐进挺(花名:丁原)担任云掣科技CEO.…
3月21日,由于使用阿里云服务器自建 docker swarm 集群的不稳定,我们将自建 docker swarm 集群上的所有应用切换阿里云容器服务 swarm 版(非swarm mode). 3月22日,我们进行移除与重启节点的操作时引发了故障,详见 云计算之路-阿里云上-容器服务:移除节点引发博问站点短暂故障 . 3月24日,我们参考阿里云容器服务帮助文档-指定多节点调度通过给节点添加用户标签的方式成功移除了部分节点.我们是这么操作的,当时所有节点没有添加用户标签,给待移除节点之外的所有节…
在这篇博文中,我们抛开对阿里云的怀疑,完全从ASP.NET的角度进行分析,看能不能找到针对问题现象的更合理的解释. “黑色30秒”问题现象的主要特征是:排队的请求(Requests Queued)突增,到达HTTP.SYS的请求数(Arrival Rate)下降,QPS(Requests/Sec)下降,CPU消耗下降,Current Connections上升. 昨天晚上18:08左右发生了1次“黑色30秒”,正好借此案例分析一下. 1.为什么Requests Queued会突增? 最直接的原因…
今天下午访问高峰的时候,主站的Web服务器出现奇怪的问题,开始是2台8核8G的云服务器(ECS),后来又加了1台8核8G的云服务器,问题依旧. 而且3台服务器特地使用了不同的配置:1台是禁用了虚拟内存的临时磁盘云服务器,1台是启用了虚拟内存的临时磁盘云服务器,1台是禁用了虚拟内存的云盘云服务器.这样排除了磁盘IO与虚拟内存的原因. 问题的表现是这样的(以下监视截图来自Windows性能监控器Performance Monitor): 1. ASP.NET请求执行时间(Request Execut…
如果说2013年云计算之路的主题是“踩坑”,那么2014年我们希望云计算之路的主题变成“填坑”——当然填坑是阿里云来完成的,我们只是见证曾经的坑坑洼洼变成平坦大道. 15号(周四)晚上我们发现了SLB会话保持的坑,16号晚上阿里云成功定位并进行修复,这两天正式发布后会填平这个坑.这次从踩坑到填坑的过程是最痛快的一次. 接下来我们的目标锁定在“黑色n秒”(刚发现一个英文说法:stuck for x seconds)这个坑我们最多.最神秘.最诡异的坑. 受“云计算之路:2009年Xen一个补丁背后那…
在云上真是无奇不有,昨天偶然间发现在IIS的应用程序池回收设置中,仅仅设置了一下基于虚拟内存限制的回收,就引发了CPU有规律的波动.在这篇博文中,我们将向大家汇报一下云计算之路上的这个小发现. 在之前我们使用阿里云云服务器(虚拟机)遇到一个左右为难的情况: 如果开启虚拟内存页面交换文件,会造成CPU占用高,在高并发情况下会引发CPU 100%.系统无响应的故障,详见云计算之路-阿里云上:启用Windows虚拟内存引发的CPU 100%故障. 如果关闭虚拟内存页面交换文件,在某种因素引起的短时间虚…
今天上午11:35~11:40左右,由于负载均衡中的两台云服务器CPU占用突然飚至100%,造成网站5分钟左右不能正常访问,请大家带来了麻烦,请谅解! (上图中红色曲线表示CPU占用) 经过分析,我们确认CPU 100%问题与启用Windows虚拟内存有关. 原先这两台云服务器是禁用虚拟内存的,但昨天由于虚拟内存不够用,造成了服务器自动重启(详见云计算之路-阿里云上:禁用Windows虚拟内存引发的重启),于是启用了Windows虚拟内存.在今天访问高峰期高并发的情况下,引发了CPU 100%故…
冒着被大家厌烦的风险,今天再发一篇“云计算之路-阿里云上”.这是在前一篇发过之后真实发生的事情,我们觉得定位问题的过程值得分享.而且估计园子里不少朋友被这个问题骚扰过,我们有责任让大家知道问题的真正原因. 快下班之前,园区里另外一家公司的朋友说他们公司有的人不能正常访问园子——会出现HTTP Error 400错误,而其他人可以正常访问.这个问题立即引起了我们的警觉,因为之前也有园友反馈过同样的问题,当时什么也没动,后来就好了,以为是他们公司网络代理服务器的问题.由于我们从未遇到过这个问题,而且…
在之前对“黑色1秒”问题的分析博文中,我们将最大嫌疑对象锁定在了Xen,在这篇博文我们将从Xen的角度进行分析.也许有人会问,为什么不知道天多高地多厚地去研究不属于自己范围的问题?只因我们对一个问题的强烈好奇心——究竟是不是我们用Windows的错? (注1:文中所说的Xen补丁问题只是提供一种分析问题的思路,我们遇到的“黑色1秒”问题与有没有打这个补丁没有关系) (注2:关于这个Xen补丁背后的故事,推荐阅读阿里云分享的博文:云计算之路:2009年Xen一个补丁背后那不为人知的故事) 2009…
在昨天的博文(云计算之路-阿里云上:读取缓存时的“黑色0.1秒”)中我们犯了一个很低级的错误——把13ms算成了130ms(感谢陈硕发现这个错误!),从而对问题的原因作出了错误的推断,望大家谅解! 从中我们吸取到了一个教训:趁热打铁要小心,容易失去冷静,作出错误的判断. 今天我们痛定思痛,用了一个下午的时间重新分析了“黑色0.1秒”问题,这次从EnyimMemcached的源代码下手(https://github.com/enyim/EnyimMemcached). 怎么下手呢?我们用了最粗鲁.…
昨天(2013年8月6日)下午,承载www.cnblogs.com主站的两台云服务器分别自动重启了1次,由于这两台云服务器使用了负载均衡(SLB),重启并未影响网站的正常访问. 与这次重启相关的Windows事件日志如下: 云服务器1(8核CPU,8G内存): 14:36:22 —— Windows successfully diagnosed a low virtual memory condition. The following programs consumed the most vir…
2013年7月24日,18:20~18:50左右,处于阿里云云服务最前沿的SLB(负载均衡)出现故障,造成了网站不能正常访问(由于是最前沿,这次连502也看不到了). 在大家对昨日RDS故障带来的麻烦还记忆犹新的时候,今天又给大家带来新的麻烦,我们真的真的很抱歉! 我们本来想走上云计算之路之后,可以更专心于开发出更好的产品,为大家提供更好的服务,哪知道国内云计算厂商连云计算的根本——稳定性都不能保证. 在艰苦走了一段云计算之路之后,突然发现面前竟然是一条十字路口:国内云计算厂商的不争气,国外云计…
7月10日11:14接到一位用户反馈,访问园子时加载不了 common.cnblogs.com/script/jquery.js 这个文件. 由于这个域名用了阿里云CDN,所以我们判断可能是某个CDN节点出了问题,准备让这位用户ping common.cnblogs.com将CDN节点的IP反馈给我们.恰好这时我们也遇到了同样的问题,浏览器长时间停留在连接common.cnblogs.com的状态中: 然后ping common.cnblogs.com,ping包的响应速度很快,看来不是部分CD…
我们从今年6月开始在生产环境进行 docker 容器化部署,将已经迁移至 ASP.NET Core 的站点部署到 docker swarm 集群上.开始我们选用的阿里云容器服务,但是在使用过程中我们遭遇了恐怖的路由服务(acsrouting)路由错乱问题 —— 请求被随机路由到集群中的任一容器,虽然后来阿里云修复了这个问题,但我们对容器服务失去了信心,走上了用阿里云服务器自建 docker swarm 集群的道路. 用上自建 docker swarm 集群之后,本以为可以在云上容器中过上安稳的日…
最近发现阿里云RDS管理控制台升级了,界面更好看了,操作也更方便了,但在美丽的外表下却藏着坑,不小心被我们睬着了. 8月31日下午,我们在RDS管理控制台中创建了一个新的数据库帐号,创建时选择了绑定多个数据库. 然后,这个新建帐户的状态显示为“创建中”,这时该新建帐户可以登录,但不能访问任何数据库. 过了2分多钟,帐户状态由“创建中”变为“激活”后,才可以正常访问所绑定的数据库. 之前我们很久没有在RDS进行帐户管理操作了,今天这样一个如此简单.如此常用的操作,我们根本没想到会出问题. 结果却在…
这篇博文记录一下6月1日在阿里云上遇到的奇怪的CPU 100%问题,希望多年以后能真相大白. 那天负载均衡(SLB)中只放了1台云服务器(平时都放2台),由于是节假日,虽然只放了一台,但这台服务器的负载也没有平时高.但在上午的时候突然出现了CPU 100%问题,然后切换到另外一台云服务器恢复正常. 下午的时候,我们将负载又切换回那台出问题的服务器,正常运行一段时间后,CPU又飙到100%.切换回之前正常的那台服务器后又恢复正常. 对比两台服务器,虽然那台正常的服务器CPU波动也挺大,但即使偶尔串…
风雨之后是彩虹,经历了三个月的风雨之后,从6月14日起(上次故障发生于6月13日)开始享受彩虹...而今天突袭而来的RDS故障让我们懂得了彩虹期间会有阵雨,但不管怎么样,离“晴空万里”越来越近了. 2013年7月23日10:00~11:00左右,我们使用的阿里云RDS(关系型数据库服务)突然出现故障,造成了网站不能访问(大家访问时遇到的502错误就是故障的表现).由此给大家带来了很大的麻烦,我们深表歉意!望大家谅解! 这次502故障发生时,我们先从服务器上的错误日志下手,一下子将故障的引发点逮个…