<Kafka权威指南>读书笔记-操作系统调优篇 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任. 大部分Linux发行版默认的内核调优参数配置已经能够满足大多数应用程序的运行需求,不过还是可以通过调整一些参数来进一步提升Kafka的性能.这些参数主要与虚拟内存,网络子系统和用来存储日志片段的磁盘挂在点有关.这些参数一般配置在“/etc/sysctl.conf” 文件里,不过在对内核参数进行调整时,最好参考官方提供的操作系统文档. 一.虚拟内存 一般来说,Linux的虚拟内存会根…
cassandra自带测试工具cassandra-stress.nodetool proxyhistograms可以在多个节点运行,发现最慢的协调节点.nodetool tablehistograms可以查看特定表的性能. 利用tracing去跟踪某个特定表和相关查询.可以知道每个查询涉及的客户端和节点之间的通信和每一步的时间.设置tracing,可以使用cqlsh设置 TRACING ON,然后查询,再TRACING OFF.也可以通过驱动去查询tracing的结果.nodetool setr…
集中讨论以下3 个有意思的话题 :• Kafka 如何进行复制:• Kafka 如何处理来自生产者和消费者的请求 :• Kafka 的存储细节,比如文件格式和索引. 集群成员关系 Kafka 使用 Zoo keeper 来维护集群成员的信息.每个 broker 都有一个唯一标识符,这个标识符可以在配置文件里指定 ,也可以自动生成.在 broker 启动的时候,它通过创建临时节点把自己的ID注册到 Zookeeper.Kafka 组件订阅 Zookeeper 的/brokers/ids 路径(br…
不管是把 Kafka 作为消息队列.消息总线还是数据存储平台来使用 ,总是需要有一个可以往 Kafka 写入数据的生产者和一个从 Kafka 读取数据的消费者,或者一个兼具两种角色的应用程序. 开发者们可以使用 Kafka 内置的客户端 API 开发 Kafka 应用程序. 我们将从 Kafra 生产者的设计和组件讲起,学习如何使用 Kafka 生产者.内容包括: 如何创建 KafkaProducer 和 ProducerRecords 对象.如何将记录发送给 Kafka: 如何处理从 Kafk…
KafkaConsumer概念 消费者和消费者群组 Kafka 消费者从属于消费者群组.一个群组里的消费者订阅的是同一个主题,每个消费者接收主题一部分分区的消息. 往群组里增加消费者是横向伸缩消费能力的主要方式. 我们有必要为主题创建大量的分区,在负载增长时可以加入更多的消费者.不要让消费者的数量超过主题分区的数量,多余的消费者只会被闲置.  除了通过增加消费者来横向伸缩单个应用程序外,还经常出现多个应用程序从同一个主题读取数据的情况. Kafka 设计的主要目标之一 ,就是要让 Kafka 主…
发布与订阅消息系统 数据(消息)的发送者(发布者)不会直接把消息发送给接收者,这是发布与订阅消息系统的一个特点.发布者以某种方式对消息进行分类,接收者(订阅者)订阅它们, 以便接收特定类型的消息.发布与订阅系统一般会有一个 broker,也就是发布消息的中心点. Kafka 登场 在0.10版本之前, Kafka仅仅作为一个消息系统,主要用来解决应用解决. 异步消息 . 流量削峰等问题. 不过在0.10版本之后, Kafka提供了连接器与流处理的能力,它也从分布式的消息系统逐渐成为一个流式的数据…
概述:JVM性能调优没有一个非常固定的设置,比如堆大小设置多少,老年代设置多少.而是要根据实际的应用程序的系统需求,实际的活跃内存等确定.正文: JVM调优工作流程 整个调优过程是不断重复的一个迭代,后面的步骤有可能影响前面的配置,可能需要重新调优. 应用程序的系统需求 确定应用程序的系统需求是性能调优的基础,后面的调优都会依赖这个要求.一个应用不会无休止地调优下去. 1.可用性 2.可管理性 3.启动时间 4.吞吐量 TPS: 每秒多少次事务 QPS: 每秒多少次查询 5.延迟 比如关键请求必…
吞吐量是指,应用程序的TPS: 每秒多少次事务,QPS: 每秒多少次查询等性能指标. 吞吐量调优就是减少垃圾收集器消耗的CPU周期数,从而将更多的CPU周期用于执行应用程序. CMS吞吐调优 CMS包括Minor GC所带来的开销应该小于10%,如果垃圾收集的开销在3%或更少,说明通过调优吞吐量,提升性能的空间就极其有限了. 可用的调优方法如下: 1. 增大新生代空间,以降低Minor GC频率,减少CPU周期占用: 2. 增加老年代空间,以降低CMS频率,并可以减少老年代内存碎片: 3. 优化…
延迟指服务器处理一个请求所花费的时间,单位一般是ms.s. 本文主要讲降低延迟可以做的服务器端JVM优化. JVM延迟优化 新生代 新生代大小决定了应用平均延迟 如果平均Minor GC持续时间大于应用程序平均延迟性要求,可以适当减小新生代空间大小: 如果Minor GC频率大于应用程序平均延迟性要求,可以适当增大新生代空间: 老年代 老年代大小决定了应用最差延迟 FullGC频率大于应用程序最大FullGC频率要求,可以适当增大老年代空间大小: FullGC持续时间大于应用程序最差延迟性要求,…
HTTP权威指南笔记 读书有两种境界,第一种境界是将书读薄,另一种是读厚.本篇文章就是HTTP权威指南的读书笔记,算是读书的第一重境界,将厚书读薄.文章对HTTP的一些关键概念做了比较详细的概述,通读一遍之后,会对HTTP有个总体认识.然后你可以根据文章中的关键点,去查找更详细的细节.这就是读书的第二重境界,将书读厚. HTTP(hypertext transfer protocol,超文本传输协议)是万维网进行通信时所使用的协议方案.HTTP有很多应用,但最著名的是用于Web浏览器和Web服务…
web性能权威指南 page 203 经典的性能优化最佳实践 无论什么网络,也不管所用网络协议是什么版本,所有应用都应该致力于消除或减 少不必要的网络延迟,将需要传输的数据压缩至最少.这两条标准是经典的性能优 化最佳实践,是其他数十条性能准则的出发点. 减少DNS查找 每一次主机名解析都需要一次网络往返,从而增加请求的延迟时间,同时还会阻 塞后续请求. 重用TCP连接 尽可能使用持久连接,以消除 TCP 握手和慢启动延迟;参见 2.2.2 节“慢启动”. 减少HTTP重定向 HTTP 重定向极费…
今天翻手机,翻到了许久之前看css权威指南时的笔记,遂移到博客中来. 1.属性选择器p.one class名为one的p元素p[class][name] 含有class和name属性的p元素p[class="one"][name="two"] class属性为one且name属性为two的p元素p[class~="one"] class属性包含one的p元素p[class^="one"] class属性以one开头p[clas…
本书中提到的Hadoop项目简述 Common:一组分布式文件系统和通用I/O的组件与接口(序列化.javaRPC和持久化数据结构). Avro:一种支持高效.跨语言的RPC以及永久存储数据的序列化系统. MapReduce:分布式数据处理模型和执行环境,执行于大型商业集群. HDFS:分布式文件系统,执行于大型商用机集群. Pig:一种数据流语言和执行环境,用以检索很大的数据集. Pig执行在MapReduce和HDFS的集群上. Hive:一个分布式.按列存储的数据仓库.Hive管理HDFS…
1. 概述 kylin 是 OLAP 引擎,采用多维立方体预计算技术,可将大数据的 SQL 查询速度提升到亚秒级别. 需求: 虽然像 spark,hive 等使用 MPP 大规模并行处理和列式存储的方式,可以将 Hadoop 的 SQL查询提高到了分钟级别, 但是仍然不能满足数据分析师的要求.在面对超大规模的数据集时,分析师不要讲更多的精力花在等待查询结果上, 而不是更加重要的建立领域模型上. kylin 就是要打破查询时间随着数据量成线性增长的规律,采用的思路就是 “预计算” 它会尽量的预先计…
这一章看了之后真是豁然开朗,之前虽然写了圣杯布局和双飞翼布局,有些地方也是模糊的,现在打算总结之后再写一遍. 以下都是从<css权威指南>中摘抄的我认为很有用的说明. 浮动元素 一个元素浮动时,其他内容会环绕该元素.浮动元素会生成一个块级框,不论这个元素本身是什么.并且浮动元素周围的外边距不会合并.如果要浮动一个非替换元素,必须显式声明width. 浮动元素的几条规则: 1)      浮动元素的左(右)外边界不能超出其包含块(包含快是其最近的块级祖先元素)的左(右)边界.但是负外边距或者浮动…
JIT(即时编译) 解释型代码:程序可移植,相同的代码在任何有适当解释器的机器上,都能运行,但是速度慢. 编译型代码:速度快,电视不同CPU平台的代码无法兼容. java则是使用java的编译器先将其编译为class文件,也就是字节码:然后将字节码交由jvm(java虚拟机)解释执行.由于这个编译是在程序执行时进行的,因此被称为"即使编译". 热点编译 对于程序来说,通常只有一部分代码被经常执行,而应用的性能就取决于这些代码执行得有多快.这些关键代码段被称为应用的热点,代码执行得越多就…
DataStax驱动最成熟.默认,驱动程序会使用第一个连接的节点作为支持的版本协议.如果集群存在高低版本的节点(比如升级场景),如果驱动先连接不同不同版本的节点,可能会出现不兼容.驱动支持压缩客户端和cassandra节点之间的消息.目前支持2种压缩算法:LZ4和SNAPPY.默认为NONE,即不压缩.可以调用Cluster.Bilduer.withCompression()操作来覆盖这个设置.认证和加密驱动可插拔实现com.datastax.driver.core.AuthProvider.比…
新生代.老年代.永久代的概念不多说,这三个空间中任何一个不能满足内存分配请求时,就会发生垃圾收集. 新生代不满足内存分配请求时,发生Minor GC,老年代.永久代不满足内存分配请求时,发生Full GC,Minor GC比Full GC持续的时间要短很多. 所以内存空间设置的不合理就会频繁引起垃圾收集,以及OutOfMemoryError错误,严重影响程序性能. Java堆大小计算法则 若你的应用部署在单独的服务器,且该服务器上只有这一个应用,那Java堆肯定是越大越好,但这种情况比较少. J…
Kafka 第三章,第四章阅读笔记 Kafka 发送消息有三种方式:不关心结果的,同步方式,异步方式. Kafka 的异常主要有两类:一种是可重试异常,一种是无需重试异常. 生产者的配置: acks 越大,越不容易丢失消息,但是吞吐量下降. buffer.memory,设置不当会导致阻塞或者抛出异常. compression.type snappy和gzip, lz4. retries 重试次数, 如果要保证消息的顺序,必须保证max.in.flight.requests.per.connect…
新生代填满时,垃圾收集器会暂停所有的应用线程,回收新生代空间.这种操作被称为Minor GC. 老年代被填满时,垃圾收集器会暂停所有应用线程,对其进行回收,接着对堆空间进行整理.这个过程被称为Full GC. 最主流的四个垃圾收集器分别是:Serial收集器.Throughput(或者Parallel)收集器.Concurrent(CMS.G1)垃圾收集器.Concurrent垃圾收集器可以通过复杂的计算,可以在应用线程运行的同时找出不再使用的对象. 使用CMS或G1收集器时,应用程序精力的停顿…
跨集群数据镜像 使用场景: 区域集群和中心集群 这种场景下,每个区域的应用程序只访问相应的区域内的集群.而有些情况下,需要将各个集群的信息汇总到中心集群,就可以用中心集群分析业务数据了. 冗余 一个Kafka集群足以支撑所有的应用程序,但是为了高可用,可以做一个灾备. 云迁移 有很多公司将业务同时部署在本地数据中心和云端.为了实现冗余,应用程序通常运行在多个云供应商的多个服务区域里,或者使用多个云服务.本地和每个云服务都有一个Kafka集群. 有些情况下,也会在数据中心之间传输数据.例如云端部署…
Broker配置 Kafka可以同时拥有可靠的主题和非可靠的主题.非可靠的主题允许丢失. 复制系数 主题级别的配置参数是 replication.factor,在Broker级别则可以通过default.replication.factor 来配置自动创建的主题. 在主题创建之后,可以通过新增或移除副本来改变复制系数. 较高的复制系数会带来更高的可用性,可靠性,和更少的故障. 复制系数N,需要至少N个broker,会有N个数据副本. 默认副本数量是3.如果配置了机架名字,broker.rack,…
Kafka Broker kafka 第一个启动的Broker在ZooKeeper中创建一个临时节点/controller,让自己成为控制器.其他Broker启动后在控制器节点上创建Watch对象,便接收节点变更通知. Kafka利用ZooKeeper来选举控制器,并在节点加入或者退出集群时通知控制器.控制器负责在节点加入或者退出集群时选举分区首领.控制器使用Epoch来防止"脑裂". Kafka 使用主题来组织数据,每个主题被分为若干个分区,每个分区有多个副本.每个Broker上面可…
第十七章 事件处理 1 客户端JS程序采用了异步事件驱动编程模型. 2 关于事件的重要定义     a 事件类型(event type)     b 事件目标(event target) target === srcElement(IE8及之前版本)     c 事件处理程序(event handler ) 当对象上注册的事件处理程序被调用时,可以说浏览器触发(fire trigger)和派发(dispatch)了事件:     d 事件对象(event object)     e 事件传播(e…
第十三章 Web浏览器中的JavaScript 1 在Html文档中嵌入客户端4种JS代码方法     a 内联方式,放置在<script>标签之间     b 放置在<script>标签 src 属性指定的外部文件中     c 放置在HTML事件处理程序中     d 放置在URL中,"javascript:" 协议 2 在XHTML中,script标签中内容将被当做其他内容,如果JS代码包含了"<" 或 "&&q…
一.JavaScript核心语法 1.字符串中接受RegExp参数的方法 (1)text.search(pattern)返回首次匹配成功的位置 (2)text.match(pattern)返回匹配组成的数组 (3)text.replace(pattern, '#')返回新字符串 (4)text.split(pattern) 2.字符串不是对象为什么会有属性? 只要引用了字符串的属性,JavaScript就会将字符串值通过String()构造函数创建临时对象(包装对象),这个对象继承了字符串的方法…
没有join操作.有轻量级事务和批处理,但是没有外键等.反规范化.3.0支持物化视图,允许在一个表上创建数据的多个物化视图.使用cassandra要从查询入手,而不是先从数据模型开始.先对查询建模,然后根据查询来组织数据,然后再构建表结构.cassandra建表要考虑磁盘怎么存储数据,也就是要求要保证相关的列定义在同一个表中,不像RDBMS去关联查询.尽可能搜索最小的分区去满足一个给定的查询.搜索单个分区往往会得到最优的性能.排序需要提前设计,根据集群键排序.只能是和设计排序一样,或者完全相反.…
cassandra是一个开源的.分布式.去中心化.弹性可扩展.高可用.容错.可调一致性.面向行数据库,分布式设计基于Amazon Dynamo,数据模型基于Google BigTable.cassandra由facebook创建.AP数据库去中心化,P2P(peer to peer,对等网络)协议,使用Gossip来维护和同步一个存活或者死亡列表.弹性可扩展,水平扩展简单,自动数据迁移,几乎不影响现有访问.高可用.容错:不存在单点故障问题.扩容缩容更简单.防灾,天然支持多AZ(area zone…
JavaScript 1.变量 变量是一个表示值的符号,是一个名字,他的本质是值: var x; //----声明一个变量: 值通过等号“=”赋给变量,x = 16; 对象是名/值对的集合,或字符串到值映射的集合: var book = { //对象用花括号包起来 topic:"JavaScript", //属性topic的值是JavaScript,多个名/值对用逗号分隔: fat:true //属性fat的值是true; }; //分号表示定义变量结束: 通过"."…
一:CPU 1. 用户态CPU是指执行应用程序代码的时间占总CPU时间的百分比. 系统态CPU是指应用执行操作系统调用的时间占总CPU时间的百分比.系统态CPU高意味着共享资源有竞争或者I/O设备之间有大量的交互. 提高应用性能和扩展性的一个目标就是尽可能降低系统态CPU使用率. 2. CPU运行队列就是那些已经准备好运行.正等待可用CPU的轻量级进程. 当运行队列长度达到处理器的4倍或者更多时,系统的相应就非常迟缓了. 解决运行队列长有两种办法: 1). 增加CPU以分担负载: 2). 分析系…