一、业务背景

es服务当前没有专门的部门负责维护和开发,交由各端自行负责维护,随着公司业务查询和统计需求非常多,会面临居多方面问题和挑战:

  • 无人(专业RD或部门)负责
    • 无专业的人进行维护,遇到问题几乎无人处理
  • 缺乏性能评估
    • 查询和统计相关语句执行无指标评价体系
  • 运维效率较低
    • 无操作友好且高效的web管理平台
  • 质量评估缺失
    • 监控报警体系不完善
  • 缺乏运维体系建设
    • 无集群性能评估和压测报告
    • 无容灾容错措施
    • 无迁移扩容方案
    • 无最佳实践(容量、集群规模、jvm配置等等)
    • 无优化方案

二、业务目标

  • 提效率降成本,web自动化运维平台建设
  • 优化性能,服务治理体系建设(SOP、调优)
  • 集群性能评估,提供性能、压测方案
  • 保障质量,监控报警、数据报表完善和SLA
  • 节约资源,进行集群规划和梳理,逐步收敛集群规模。 1.下线富余机器  2.相应机器降配置
  • 新增安全性,新增鉴权模块,实现访问隔离和安全验证
  • 索引同步保证,保证数据一致性、正确性、实时性

三、技术规划

es成果落地分期进行,每期以季度为单位,每季度都要规划具体开发和落地任务以及完成时间

一期计划:

  • 监控报警完善,报警考虑与第三方组件集成,例如运维体系、钉钉集成等
  • 优化性能,集群性能调优、部署架构调整、集群分类。
  • 建立各种SOP(安装、机器配置、jvm配置、重启、迁移、扩容等)
  • 收敛集群规模和数量,下线富余机器。例如有的节点128G根本用不了,纯属浪费资源
  • 测试方案,性能测试、功能测试、可靠性测试(各种容灾容错场景)、es版本升级与兼容性测试

二期计划:

  • 建平台,推进web自动化运维平台建设
    • 多集群管理(浏览、增减)
    • 节点管理(浏览、增减)
    • 业务接入评估公式和规范
    • 业务申请入口
    • 类SQL支持/统计查询性能,集成官方SQL插件

三期计划:

  • 架构升级优化,增加代理层
    • 通过代理层检索服务,实现限流,超时,重试机制
    • 大集群业务访问隔离

五、开发任务

人力需求规划:需求2人  一期计划  1人负责测试方案落地,容错容灾机制,保障集群稳定性  1人负责各种sop和演练,参与部分优化工作

es技术规划的更多相关文章

  1. 什么是技术规划(TPP)?

    什么是技术? 1.技,巧也. ——<说文> 2.为了人类的目的而操纵自然世界的工具.机器.系统和技巧的集合. ——梅里特·罗·史密斯 3.人类都在利用自然和改造自然的过程中积累起来并在生产 ...

  2. 新东方APP技术架构演进, 分布式系统架构经验分享

    今天的演讲题目是"新东方APP技术架构演进, C端技术经验分享" 作者:张建鑫, 曾任IBM高级软件架构师, 滴滴高级技术专家, 现任新东方集团高级技术总监 古代东西方的思想家都产 ...

  3. 很多人都在埋怨没有遇到好的团队,但好的团队不可能凭空出现,一流的团队不能仅靠团队成员努力,作为Leader,要有可行的规划,并坚定地执行、时势地调整(转)

    <西游记>中的唐僧团队历经千难万险,终于求得真经,目标明确.分工合理为这支队伍最终走向成功奠定了基础.唐僧从一开始,就为这个团队设定了西天取经的目标,虽然经历各种挫折与磨难,但目标从未动摇 ...

  4. 【codelife 阿里技术文章分享——读后感】

    目前看到的几篇比较有感触的文章,分别是: 前端Leader如何做好团队规划?阿里内部培训总结公开   ——>这里会有关于针对技术项目如何做规划的一些指导,非常有价值 程序员吃的是青春饭?本质上取 ...

  5. 滴滴打车CTO张博:生死战役,技术和时间赛跑

    三款产品背后的架构变迁 滴滴打车成立初衷是为了解决司机与乘客之间的信息不对称的问题,通过移动互联网和智能手机来打破信息的壁垒.从打车到专车再到顺风车,滴滴打车三款产品的背后是架构的挑战和系统的变迁. ...

  6. 万亿级日志与行为数据存储查询技术剖析(续)——Tindex是改造的lucene和druid

    五.Tindex 数果智能根据开源的方案自研了一套数据存储的解决方案,该方案的索引层通过改造Lucene实现,数据查询和索引写入框架通过扩展Druid实现.既保证了数据的实时性和指标自由定义的问题,又 ...

  7. 微信公众号【阿里技术(ali_tech)】历史文章整理

    简介 来自微信公众号: ali_tech 阿里巴巴官方技术号,关于阿里的技术创新均呈现于此. 本内容来自微信公众号的分享,最后更新时间2019-10-26,请关注对应公众号接收最新分享,定期同步地址: ...

  8. 前后端分离,我怎么就选择了 Spring Boot + Vue 技术栈?

    前两天又有小伙伴私信松哥,问题还是职业规划,Java 技术栈路线这种,实际上对于这一类问题我经常不太敢回答,每个人的情况都不太一样,而小伙伴也很少详细介绍自己的情况,大都是一两句话就把问题抛出来了,啥 ...

  9. 如何成为优秀的技术Leader

    技术主管,又叫技术经理,英文一般是 Tech Leader ,简称 TL.随着工作经验的不断积累,能力的不断提升,每个人都有机会成为 Team Leader. 然而在机会到来前,我们必须提前做好准备, ...

随机推荐

  1. 一、【Docker笔记】进入Docker世界

    ​ 我们平时判断一个电脑的性能主要看什么?磁盘读写?CPU的主频高低?还是内存的大小?可是作为个人使用者来说,这些参数高一些足够我们去使用了,可是对于一个大型系统甚至是超大型系统,当前的硬件是远远达不 ...

  2. [React]Hook初探

    Hook是什么 Hook是React从16.8开始支持的特性,使用Hook可以在不使用class时使用state Hook支持在不需要修改组件状态的情况下复用逻辑状态,从而解决使用render pro ...

  3. Spring中的设计模式:工厂方法模式

    导读 工厂方法模式是所有设计模式中比较常用的一种模式,但是真正能搞懂用好的少之又少,Spring底层大量的使用该设计模式来进行封装,以致开发者阅读源代码的时候晕头转向. 文章首发于微信公众号[码猿技术 ...

  4. Python——office编程

    一.office编程需求 二.Excel编程 import xlrd path=input("输入路径:") workbook=xlrd.open_workbook(path)#打 ...

  5. Android 数据库框架 DBFlow 的使用

    原文首发于微信公众号:jzman-blog,欢迎关注交流! DBFlow 是一个基于注解处理器开发的使用方便的 ORM Android 数据库,该库简化了很多多余的代码,并且提供了好用的 API 来处 ...

  6. Java IO流的写入和写出操作 FileInputStream和FileOutputStream

    今天学习了Java的IO流,关于文件的读入和写出,主要是FileInputStream和FileOutputStream来实现,这两个流是字节流.还有字符流(FileReader和FileWriter ...

  7. Q - 迷宫问题 POJ - 3984(BFS / DFS + 记录路径)

    Q - 迷宫问题 POJ - 3984 定义一个二维数组: int maze[5][5] = { 0, 1, 0, 0, 0, 0, 1, 0, 1, 0, 0, 0, 0, 0, 0, 0, 1, ...

  8. codeforces 1038a(找最长的前k个字母出现相同次数的字符串)

    codeforces 1038a You are given a string s of length n, which consists only of the first k letters of ...

  9. C#与html实现WebSocket交互(制作ktv手机点歌)

    ------------恢复内容开始------------ C#与html实现WebSocket交互(制作ktv手机点歌) C#端代码 static void Main(string[] args) ...

  10. 手把手教你分析Mysql死锁问题

    前言 前几天跟一位朋友分析了一个死锁问题,所以有了这篇图文详细的博文,哈哈~ 发生死锁了,如何排查和解决呢?本文将跟你一起探讨这个问题 准备好数据环境 模拟死锁案发 分析死锁日志 分析死锁结果 环境准 ...