HBase运维经验】的更多相关文章

http://www.qconbeijing.com/download/Nicolas.pdf 重点看了下facebook做了哪些改进以及他们的运维经验,比较重要的有以下几点: 改进: 1 加强了行级的ACID约束 2 改善了数据的分布规则,可以配置hdfs的replicas所在节点 3 改写了master的assign规则,利用zk来进行assign 4 不用停机地重启cluster 5 改进了compaction策略 6 批量查询的优化 7 对压缩进行了改进 运维经验: 1 事先切分好的re…
1.开发经验总结  ——12 Sep 2014 · 8 revisions 在jstorm中, spout中nextTuple和ack/fail运行在不同的线程中, 从而鼓励用户在nextTuple里面执行block的操作, 原生的storm,nextTuple和ack/fail在同一个线程,不允许nextTuple/ack/fail执行任何block的操作,否则就会出现数据超时,但带来的问题是,当没有数据时, 整个spout就不停的在空跑,极大的浪费了cpu, 因此,jstorm更改了stor…
一个兼职DBA的数据库运维经验 小米科技  xx@xiaomi.com 2011 内存扩容 16G->64G ,调大bp后,凌晨说监控物理内存有余量情况下,开吃swap,内存泄露措施1  定时 echo 1 >/proc/sys/vm/drop_caches  页面缓存措施2 下次mysql实例重启期间,numactl --interleave=all  mysqld &  启动mysql时候关闭numa特性 ulimit允许coreulimit -c  最大的core文件大小,以bl…
背景 鉴于上次一篇文章——“云HBase小组成功抢救某公司自建HBase集群,挽救30+T数据”的读者反馈,对HBase的逆向工程比较感兴趣,并咨询如何使用相应工具进行运维等等.总的来说,就是想更深层理解HBase运维原理,提高运维HBase生产环境的能力,应对各种常见异常现象.不同的读者对hbase的了解程度不同,本文不打算着重编写一个工具怎么使用,而是从HBase的运维基础知识介绍开始讲解.为了能帮助大部分读者提高HBase运维能力,后续会写个“HBase运维系列” 专题系列文章,欢迎大家关…
转自:http://www.juvenxu.com/2015/03/20/experiences-on-zookeeper-ops/ ZooKeeper 运维经验 ZooKeeper 是分布式环境下非常重要的一个中间件,可以完成动态配置推送.分布式 Leader 选举.分布式锁等功能.在运维 AliExpress ZooKeeper 服务的一年多来,积累如下经验: 1. 集群数量 3台起,如果是虚拟机,必须分散在不同的宿主机上,以实现容灾的目的.如果长远来看(如2-3年)需求会持续增长,可以直接…
Elasticsearch运维经验总结 2018年12月10日 16:38:41 运小白 阅读数 3811   版本说明:5.6.4(要严格注意ES及其插件.第三方工具的版本匹配关系) 系统负载:(日志集群,日均写入10TB,保留7天) 1,出于高可用的考虑,同一个分区的多个副本不会被分配到同一台机器 如下截图所示,Index:queries,设置20副本,5分片.这个集群当前有14个可用数据节点,queries的0分区在这14个数据节点上均有且仅有一个副本,剩余​​的7个副本显示UNASSIG…
原文: http://mp.weixin.qq.com/s?__biz=MzA3MzYwNjQ3NA==&mid=207132223&idx=1&sn=f5d98146f28235d91fe3e675cead4ce5&scene=1&key=c76941211a49ab58058d73eaffa6e940a8545c66f8e80de85e1684bfae3d6a6bc86ae97b552146a5cc18f571240dc78b&ascene=0&…
转自:http://www.juvenxu.com/2015/03/20/experiences-on-zookeeper-ops/ ZooKeeper 是分布式环境下非常重要的一个中间件,可以完成动态配置推送.分布式 Leader 选举.分布式锁等功能.在运维 AliExpress ZooKeeper 服务的一年多来,积累如下经验: 1. 集群数量 3台起,如果是虚拟机,必须分散在不同的宿主机上,以实现容灾的目的.如果长远来看(如2-3年)需求会持续增长,可以直接部署5台.ZooKeeper集…
NoSQL现在风生水起,hbase的使用也越来越广,但目前几乎所有的NoSQL产品在运维上都没法和DB相提并论,在这篇blog中来总结下我们在运维hbase时的一些问题以及解决的方法,也希望得到更多hbase同行们的建议,:) 在运维hbase时,目前我们最为关注的主要是三大方面的状况: 1. Cluster load: 2. 读写: 3. 磁盘空间. 1. Cluster load 集群的load状况直接反映了集群的健康程度,load状况的获取非常容易,直接部署ganglia即可得到,由于hb…
问题分析的主要手段 1.监控系统:首先用于判断系统各项指标是否正常,明确系统目前状况 2.服务端日志:查看例如region移动轨迹,发生了什么动作,服务端接受处理了哪些客户端请求. 3.gc日志:gc情况是否正常 4.操作系统日志和命令:操作系统层面.硬件是否故障,当前状况如何 5.btrace:实时跟踪目前服务端的请求和处理情况 6.运维工具:通过内置于系统中的功能,查看服务器实时处理状况 其实以上手段,大部分系统都具备,不过各有各的用法,下面我会通过常见的问题来梳理这6大手段. 常见问题1:…