避免警报疲劳:每个 K8s 工程团队的 8 个技巧 监控 Kubernetes 集群并不容易,警报疲劳通常是一个问题.阅读这篇文章,了解减少警报疲劳的有用提示. 如果您是随叫随到团队的一员,您可能知道什么是警觉性疲劳以及它对您的健康有何影响.而当涉及到Kubernetes时,警报源的数量会迅速飙升.本文将反思一些引起警报疲劳的常见原因,并分享有助于减少它的技巧. 什么是警觉性疲劳? 简单来说,当您在一天内收到大量与工作相关的警报时,就会发生警报疲劳,即使它们是不可操作的.不合理的大量警报会降低您…
https://www.notion.so/blog/sharding-postgres-at-notion 今年(2021)早些时候,我们对 Notion 进行了五分钟的定期维护. 虽然我们的声明指向"提高稳定性和性能",但在幕后是数月专注.紧迫的团队合作的结果:将 Notion 的 PostgreSQL 整体分片成一个水平分区的数据库舰队. 分片命名法被认为起源于 MMORPG Ultima Online,当时游戏开发者需要一个宇宙解释来解释存在多个运行平行世界副本的游戏服务器.…
最近某位大神在推特上发了一个帖子,结果引来了国内众多卖课机构.培训机构的狂欢,开始贩卖焦虑,其实「平台工程」也不是什么特别高深莫测的东西.闲得无聊,把这位大神的几个帖子薅了下来,你看过之后就会觉得没啥,都是熟悉的东西. Sid Palas & 平台工程 这位大神的名字叫 Sid Palas,一位专门做 DevOps 和 Cloud infra 相关工作的小伙伴.为了让大家了解他,他的 github 我附在最后了.下面就是这个非常有意思的帖子.原帖可以到推特上去围观.共有六部分,第一部分我贴了原图…
 Team named TAH    不管一个人多么有才能,但是集体常常比他更聪明和更有力. --奥斯特洛夫斯基     *introduce team and teamate 先说说TAH的含义,是风雨兼程的首写字母简称,代表我们团队的同一种意志与信仰.创建这个团队的初衷是因为项目,然而比赛并不是最终的目的也不是永久的目标,后来发现,将一个项目完整的实现并且运行起来,实在需要很多时间与努力,慢慢地,我们开始着眼于自身的学习与项目有效的分工. TAH里的每个人都对此付出过很多时间与努力,林晓君负…
https://coreos.com/blog/introducing-operators.html Site Reliability Engineer(SRE)是通过编写软件来运行应用程序的人员. 他们是工程师,开发人员,知道如何专门为特定应用领域开发软件. 由此产生的软件具有编程到其中的应用程序的操作领域知识. 我们的团队一直忙于Kubernetes社区设计和实现这一概念,以便在Kubernetes上可靠地创建,配置和管理复杂的应用程序实例. 我们将这类新的软件称为Operators. Op…
2017年5月20-21日,MPD工作坊·上海站将于上海徐汇区光大会展中心举办,本届MPD工作坊请到了知乎工程高级总监张伟进行主题为<工程师文化落地6项指南>的3小时深度分享.在工作坊举办之前MPD记者对张伟老师进行了采访,以下为采访实录. 文章来源:公众号 :msup(ID:msupclub)关注回复“体验工坊”有惊喜. MPD记者:从重视加班文化到重视工程文化,这种转变的背景是什么?为什么会出现这种转变? 张伟:个人认为,加班文化强调的是“投入/输入”:与之相反的工程文化是强调“结果/输出…
http://www.infoq.com/cn/news/2018/01/netflix-engineering-culture 在技术圈儿,Netflix 是一家非常有特色的互联网公司.他们信奉“自由与责任”的企业文化,鼓励工程师发挥自己的爱好与特长:特别开放,很多内部系统都开源了:所有业务都运行在云上,随之而来,有很多自己的工具,特色的运维文化. 在明年 4 月 20-22 日的 QCon 北京 2018 上,我们有幸邀请到 Netflix 工程总监 Katharina Probst,她将分…
一.你如何衡量软件工程师个人的工作表现?如何衡量整个工程师团队的工作表现? 主要从两方面: 这个员工做的工作是不是他同意做的或者应该做的?(What) 他们是如何完成自己的工作的?(How) 任何绩效管理的最重要的前提就是针对这个人的合理期望达成共识,这里既包括显性期望和隐性期望.显性期望是指,要求对方在满足特定要求的情况下在规定时间内完成一个特定项目的交付.隐性期望是指,不管他们做什么项目,你对他们的表现所拥有的期待. 如果员工在负责开发一个功能,那么这里的“What”应该包括以下几个方面的内…
作者介绍: 杨波,拍拍贷基础框架研发总监.具有超过 10 年的互联网分布式系统研发和架构经验,曾先后就职于:eBay 中国研发中心(eBay CDC),任资深研发工程师,参与亿贝开放 API 平台研发,携程旅游网(Ctrip),任技术研发总监,主导携程大规模 SOA 体系建设,唯品会(VIPShop),任资深云平台架构师,负责容器 PaaS 平台的调研和架构   前言 近日和下属一起吃晚饭,期间聊到Netflix技术那些大胆的创新,事后觉得有必要总结一下,给团队分享,让大家了解世界较高级的技术组…
在 12 月 22 日 ECUG 的下午场 ,七牛云容器计算部技术总监袁晓沛为大家带来了主题为<基于 K8S 的 DCOS 之路>的精彩分享,向大家介绍了七牛容器云目前 K8S 的状况和产品思考. 同时,他在会上讲述了如何通过七牛公有云业务容器化的操作实践,组建 K8S 翻译团队,对<Kubernetes in Action>这本书进行落地的翻译. 以下是演讲内容的实录整理. 大家下午好!我是七牛云容器计算部技术总监袁晓沛, 我今天想分享的是七牛云基于 K8S 的 DCOS 之路,…
这个月的8号.9号,个人很荣幸参加了China.NET Conf 2019 , 中国.NET开发者峰会,同时分享了技术专题<.NET技术架构下的混沌工程实践>,给广大的.NET开发小伙伴介绍混沌工程和高可用性改造实践.会后大家伙聚餐的时候,陈计节老师建议大家将各自的议题分享到社区,分享给大家.因此,今天和大家分享我的技术专题<.NET技术架构下的混沌工程实践>. 整个专题主要分为四个部分: .NET分布式.微服务架构下的高可用性挑战 混沌工程简介 .NET混沌工程的实践和成果分享…
最近写了一个静态页面,写完之后都会上传到静态服务器上.但是我遇到一个问题,就是每次修改文件后就要重新找一些代码压缩网站去压缩静态文件.有没有什么办法能够自动化的处理呢?答案当然是肯定的. 我们可以借用Grunt来帮助我们完成.只需要将现有的工程配置成grunt工程即可.那么我们一起来看看吧: 第一步:在本地安装grunt grunt是基于Node.js所以要先安装node   http://nodejs.org/download/ 安装 grunt npm install -g grunt-cl…
阅读本文大概需要 6 分钟 一个项目随着功能开发越来越多,项目必然越来越大,工程管理成本也越来越高,后期维护成本更高.如何更好的组织管理工程,是非常重要的 今天我们来学习下 Qt Creator 是如何组织管理这么庞大的一个项目工程的 QMake 多工程管理方法 我们知道 Qt 采用 qmake语法进行组织管理工程结构,想要更好的学习管理一个工程需要你了解基本的qmake语法 在Qt当中,一般以xx.pro结尾的文件是某个工程文件,我们只要打开该文件即可打开该文件管理的工程 单工程基本用法 比如…
今天我们很高兴地宣布,Lyft 的基础设施工具可扩展 UI 和 API 平台clutch已开放源代码,clutch使工程团队能够构建.运行和维护用户友好的工作流,这些工作流还包含特定于域的安全机制和访问控制.clutch兼容多种管理平台功能(如 AWS.Envoy和 Kubernetes)(https://www.alauda.cn),强调可扩展性,因此它可以为堆栈中任何组件提供托管功能. 云计算的动态属性显著地降低了新基础设施的采用成本.CNCF云原生计算基金会全景图跟踪了300多个以上开源项…
rick 的两个ppt整理 下载:2012 2013  ,使用半年erlang后,重新看这两个ppt才发现更多值的学习的地方,从ppt中整理如下: - Prefer os:timestamp to erlang:now 应该禁止使用erlang:now(),稍微用得多,整个node的%si 飙满,且整体性能数量级下降. - Implement cross-node gen_server calls without  using monitors (reduces dist traffic and…
要聊ServiceMesh,就不得不提Istio,它是ServiceMesh目前最流行的实践, 当微服务架构体系越来越复杂的时候,需要将“业务服务”和“基础设施”解耦,将一个微服务进程一分为二: 一个进程实现业务逻辑,biz,即上图白色方块 一个进程实现底层技术体系,proxy,即上图蓝色方块,负载均衡.监控告警.服务发现与治理.调用链…等诸多基础设施,都放到这一层实现 如此解耦之后: biz不管是调用服务,还是提供服务,都只与本地的proxy进行本地通信 所有跨网的通信,都通过proxy之间进…
自从几十年前第一次引入分布式系统这个概念以来,出现了很多原来根本想象不到的分布式系统使用案例,但同时也引入了各种各样的新问题. 当这些系统还是比较少比较简单的时候,工程师可以通过减少远程交互的次数来解决复杂性问题.处理分布式问题最安全的方法是尽可能避免远程交互,虽然这可能意味着要在多个系统上存放重复的逻辑和数据. 行业上的需求推动着我们前进的步伐,分布式系统的组成从几个大型的中央电脑发展成为数以千计的小型服务.在这个新的世界里,我们必须走出困境,应对新的挑战和开放性问题.首先,具体问题具体分析,…
0x00 概述 Prometheus 是一个开源监控系统,它本身已经成为了云原生中指标监控的事实标准,几乎所有 k8s 的核心组件以及其它云原生系统都以 Prometheus 的指标格式输出自己的运行时监控信息.我在工作中也比较深入地使用过 Prometheus,最大的感受就是它非常容易维护,突出一个简单省心成本低.当然,这当中也免不了踩过一些坑,下面就总结一下. # 假如你没有用过 Prometheus,建议先看一遍 官方文档 0x01 接受准确性与可靠性的权衡 Prometheus 作为一个…
菜鸟智慧新物流核心技术全解析   孟靖 阅读数:63192018 年 12 月 14 日 16:00   2018 年天猫双 11 全球狂欢节已正式落下帷幕,最终成交额定格在 2135 亿元,物流订单总数飙升至 10.42 亿单,再次刷新历史记录.与往年的双 11 不同的是,为解决庞大的包裹量,数字化和精细化成为行业关键词,第十个双 11,是在智能物流骨干网协同下,全行业资源优化的一次大考,和依托 IoT 技术的一场新物流大练兵. 正如菜鸟网络 CTO 谷雪梅在 ArchSummit 2018…
前言 2019.10.7~9号,随着70周年国庆活动的顺利闭幕,Flink Forward 也照例在他们的发源地柏林举办了第五届大会.虽然还没有拿到具体的数据,不过从培训门票已经在会前销售一空的这样的现象来看,Flink Forward 大会还是继续保持了一个良好的势头.本届大会不管是从参会人数上,提交的议题,以及参加的公司数量来看都继续创了一个新高.当然,这要去掉去年 Flink Forward 北京站的数据 ;-).阿里巴巴这次共派出了包括笔者在内的3名讲师,总共参加了4场分享和2个问答环节…
本文由马蜂窝技术团队电商交易基础平台研发工程师"Anti Walker"原创分享. 一.引言 即时通讯(IM)功能对于电商平台来说非常重要,特别是旅游电商. 从商品复杂性来看,一个旅游商品可能会包括用户在未来一段时间的衣.食.住.行等方方面面.从消费金额来看,往往单次消费额度较大.对目的地的陌生.在行程中可能的问题,这些因素使用户在购买前.中.后都存在和商家沟通的强烈需求.可以说,一个好用的 IM 可以在一定程度上对企业电商业务的 GMV 起到促进作用. 本文我们将结合马蜂窝旅游电商I…
一.什么是Service Mesh? 下面是 Willian Morgan 对 Service Mesh 的解释: A Service Mesh is a dedicated infrastructure layer for handling service-to-service communication. It’s responsible for the reliable delivery of requests through the complex topology of service…
设计边缘网关(Edge Gateway),一个高可用和高可扩展的自助服务网关,用于配置.管理和监控 Uber 每个业务领域的 API. Uber 的 API 网关的演进 2014 年 10 月,优步开始了规模之旅,最终将成为该公司最令人印象深刻的增长阶段之一.随着时间的推移,我们每个月都在以非线性方式扩大我们的工程团队,并在全球范围内获得数百万用户. 在本文中,我们将介绍 Uber 的 API 网关演进的不同阶段,该网关为 Uber 产品提供动力.我们将回顾历史,了解伴随这一飞速发展阶段而发生的…
1. 起源 作为印度最大的在线杂货公司的数据工程师,我们面临的主要挑战之一是让数据在整个组织中的更易用.但当评估这一目标时,我们意识到数据管道频繁出现错误已经导致业务团队对数据失去信心,结果导致他们永远无法确定哪个数据源是正确的并且可用于分析,因此每个步骤都会咨询数据平台团队,数据平台团队原本应该提供尽可能独立地做出基于数据的正确决策而又不减慢速度的工具. 现代数据平台会从许多不同的.不互连的,不同系统中收集数据,并且很容易出现数据收集问题,例如重复记录,错过更新等.为解决这些问题,我们对数据平…
Uber三代API 生命周期管理平台实现 - InfoQ https://www.infoq.cn/article/H8Ml6L7vJGQz0efpWvyJ Uber 三代 API 生命周期管理平台实现   Uber工程博客   刘志勇   赵钰莹 发布于:2020 年 9 月 15 日 08:00 Uber API 网关演变史 自 2014 年 10 月起,Uber 走上了规模化扩张之旅,这段旅程最终成为公司最令人印象深刻的增长阶段之一.随着时间的推移,我们每个月都在非线性扩大工程团队的规模,…
目录 概念 发展历程 工具清单 规划 概念 从字面上来看,"DevOps"一词是由英文 Development(开发)和 Operations (运维)组合而成,但它所代表的理念和实践要比这广阔的多.DevOps 涵盖了安全.协作方式.数据分析等许多方面. 但它是什么呢? DevOps 强调通过一系列手段来实现既快又稳的工作流程,使每个想法(比如一个新的软件功能,一个功能增强请求或者一个 bug 修复)在从开发到生产环境部署的整个流程中,都能不断地为用户带来价值.这种方式需要开发团队和…
系列目录     [已更新最新开发文章,点击查看详细] .NET平台是微软于2000年推出的Windows操作系统的应用软件开发框架,发展至今形成巨大的技术栈,涉及多语言(支持C#.F#.VB.NET)多领域(Windows桌面软件.Web应用.移动开发等)软件开发.在<.NET6 平台系列1 .NET Framework发展历程>中介绍了.NET Framework的发展历程,从 .NET Framework 1.0 一直到.NET Framework 4.8,在不断升级的过程中虽然变得更加…
如今你构建软件,您可以从数量众多的云服务中进行选择.仅 AWS 就每个月都在不断为其200多项服务添加新服务,而其他云提供商也都在跟上. 如果您的公司想与您的竞争对手竞争,您就需要充分利用这些服务,这些服务在不同的云提供商都有它的特色服务,我们的应用如何做到既是标准化又是可以个性化的,就拿消息队列来说吧,设置和管理您的消息队列并不会为您的产品增加任何价值,在Azure中期望使用Azure ServerBus,在阿里云你期望使用rocketmq,在私有云的k8s集群里你可以自由的选择rabbitm…
随着软件技术日新月异的发展,GitHub 已经进化成为人类软件的基因库,遇到问题第一时间在 GitHub 上寻求合适的解决方案,已经逐渐变成工程师处理问题的常见方法.据 GitHub 年度报告显示,2020 年 GitHub 上已有超过 5600 万开发人员.虽然目前全球最大开发者来源由美国以 22.7% 的比例占据,但相比 2015 年的 30.4% 还是有所下降:而占比 9.76% 的中国与占比 5.2% 的印度正快速追赶,GitHub 预计 2030 年中国有望成为全球最大开发者来源. 可…
作者 | 不瞋 导读:用户需求和云的发展两条线推动了云原生技术的兴起.发展和大规模应用.本文将主要讨论什么是云原生应用,构成云原生应用的要素是什么,什么是 Serverless 计算,以及 Serverless 如何简化技术复杂度,帮助用户应对快速变化的需求,实现弹性.高可用的服务,并通过具体的案例和场景进行说明. ### 如今,各行各业都在谈数字化转型,尤其是新零售.传媒.交通等行业.数字化的商业形态已经成为主流,逐渐替代了传统的商业形态.在另外一些行业里(如工业制造),虽然企业的商业形态并非…