es分布式文档系统_bulk api的奇特json格式与底层性能优化关系

1、bulk api奇特的json格式
{"action":{"meta"}}\n
{"data"}\n
{"action":{"meta"}}\n
{"data"}\n

2、如果采用比较良好的json数组格式
[{
　　"action":{
　　　　"meta"
　　},
　　"data":{
　　}
}]
允许任意的换行，整个可读性非常的棒，es拿到这种标准格式的json串以后，要按照下述流程去进行处理
（1）将json数组解析成JSONArray对象，这个时候整个数据就会在内存中出现一份一模一样的拷贝，一份数据是json文本，一份数据是JSONArray对象
（2）解析json数组里的每个json，对每个请求中的document进行路由
（3）为路由到同一个shard上的多个请求，创建一个请求数组
（4）将这个请求数组序列化
（5）将序列化后的请求数组发送到对应的节点上

3、耗费更多的内存，更多的jvm gc开销
bulk size有最佳大小的问题，一般建议说在几千条，然后文件大小在10MB左右。假设说现在100个bulk请求发送到了一个节点上，然后每个请求10MB，100个请求就是1000MB=1GB，然后每个请求的json都copy一份为JSONArray对象，此时占用的内存就会翻倍，结果占用2GB的内存，甚至还不止，因为弄成JSONAray之后，还可能会多搞一些其他的数据结构，2GB+的内存占用。
占用更多的内存就会挤压其他请求的内存使用量，比如最重要的搜索请求，分析请求等等，此时就可能会导致其他请求的性能急速下降。另外，占用内存更多，就会导致java虚拟机的垃圾回收次数更多，更频繁，每次需要回收的垃圾对象更多，导致es的java虚拟机停止工作线程的时间更多。

4、现在的奇特格式
（1）不用将其转化为JSONArray对象，不会出现内存中的相同数据的拷贝，直接按照换行符切割json
（2）对每两个一组的json，读取meta，进行document路由
（3）直接将对应的json发送到node上
最大的优势是，不需要将json数组解析为一个JSONArray对象，形成一份大数据的拷贝，浪费内存空间，最终尽可能地保证性能。

es分布式文档系统_bulk api的奇特json格式与底层性能优化关系的更多相关文章

Elasticsearch由浅入深（六）批量操作：mget批量查询、bulk批量增删改、路由原理、增删改内部原理、document查询内部原理、bulk api的奇特json格式
mget批量查询批量查询的好处就是一条一条的查询,比如说要查询100条数据,那么就要发送100次网络请求,这个开销还是很大的如果进行批量查询的话,查询100条数据,就只要发送1次网络请求,网络请求的 ...
分布式文档系统_document查询内部原理
1.客户端发送请求到任意一个node,成为coordinate node2.coordinate node对document进行路由,将请求转发到对应的node,此时会使用round-robin随机轮 ...
ElasticSearch 学习记录之分布式文档存储往ES中存数据和取数据的原理
分布式文档存储 ES分布式特性屏蔽了分布式系统的复杂性集群内的原理垂直扩容和水平扩容真正的扩容能力是来自于水平扩容–为集群添加更多的节点,并且将负载压力和稳定性分散到这些节点中 ES集群特点 ...
ElasticSearch 5学习(8)——分布式文档存储（wait_for_active_shards新参数分析）
学完ES分布式集群的工作原理以及一些基本的将数据放入索引然后检索它们的所有方法,我们可以继续学习在分布式系统中,每个分片的文档是被如何索引和查询的. 路由首先,我们需要明白,文档和分片之间是如何匹配 ...
一文搭建自己博客/文档系统：搭建，自动编译和部署，域名，HTTPS，备案等
本文纯原创,搭建后的博客/文档网站可以参考: Java 全栈知识体系.如需转载请说明原处. 第一部分 - 博客/文档系统的搭建搭建博客有很多选择,平台性的比如: 知名的CSDN, 博客园, 知乎,简 ...
Elasticsearch必知必会的干货知识一：ES索引文档的CRUD
若在传统DBMS 关系型数据库中查询海量数据,特别是模糊查询,一般我们都是使用like %查询的值%,但这样会导致无法应用索引,从而形成全表扫描效率低下,即使是在有索引的字段精确值查找,面对海量数 ...
elasticsearch 基础 —— _mget取回多个文档及_bulk批量操作
取回多个文档 Elasticsearch 的速度已经很快了,但甚至能更快. 将多个请求合并成一个,避免单独处理每个请求花费的网络延时和开销. 如果你需要从 Elasticsearch 检索很多文档,那 ...
ElasticSearch权威指南学习（分布式文档存储）
路由文档到分片当你索引一个文档,它被存储在单独一个主分片上.Elasticsearch是如何知道文档属于哪个分片的呢?当你创建一个新文档,它是如何知道是应该存储在分片1还是分片2上的呢? 进程不能是 ...
es删除文档或者删除索引
es删除文档或者删除索引学习了:https://www.imooc.com/video/15771 删除文档: DELETE http://127.0.0.1:9200/people/man/1 删 ...

随机推荐

R语言系列：生成数据
R语言系列:生成数据 (2014-05-04 17:41:57) 转载▼ 标签: r语言教育分类: 生物信息生成规则数据1.使用“:“,如x=1:10,注意该方法既可以递增也可以递减,如y=10 ...
python笔记2-数据类型：列表[List]常用操作
序列是Python中最基本的数据结构.序列中的每个元素都分配一个数字 - 它的位置,或索引,索引从0开始,依此类推. 序列都可以进行的操作:包括索引,切片,加,乘,检查成员. 列表是最常用的Pyth ...
input 手机号
关于input手机号的验证一.手机号的判断方法: function isPhoneTel(n){ var reg = /^1[3|4|5|8]\d{9}$/; if(!!(reg.test(n))) ...
Guava学习笔记（一）：Maven
<dependencies> <dependency> <groupId>com.google.guava</groupId> <artifact ...
向json中添加新的熟悉或对象 Add new attribute (element) to JSON object using JavaScript
How do I add new attribute (element) to JSON object using JavaScript? JSON stands for JavaScript Obj ...
Javascript Base64加密解密代码
<script language="javascript" runat="server"> var keyStr = "ABCDEFGHI ...
[JS] ECMAScript 6 - Class : compare with c#
Ref: Class 的基本语法 Ref: Class 的基本继承许多面向对象的语言都有修饰器(Decorator)函数,用来修改类的行为.目前,有一个提案将这项功能,引入了 ECMAScript. ...
【Dubbo 源码解析】01_Dubbo 设计简介
Dubbo 设计简介 Dubbo 采用 Microkernel + Plugin (微内核 + 插件)模式,Microkernel 只负责组装 Plugin,Dubbo 自身的功能也是通过扩展点实现的 ...
c++中SetEvent和ResetEvent的使用
关于事件事件(Event)是WIN32提供的最灵活的线程间同步方式,事件可以处于激发状态(signaled or true)或未激发状态(unsignal or false).根据状态变迁方式的不同 ...
[原]openstack-kilo--issue(十六) instance can't get ip 虚拟机不能得到ip（1）
=====问题点:vm instance不能正常获取ip地址(此时用户是:admin) =======不一样的点:如果使用用户demo用户,启动一个vm,同样的image这个时候就能正确获取ip == ...

es分布式文档系统_bulk api的奇特json格式与底层性能优化关系

es分布式文档系统_bulk api的奇特json格式与底层性能优化关系的更多相关文章

随机推荐

热门专题