以elasticsearch-hadoop 向elasticsearch 导数,丢失数据的问题排查
实际这是很久之前的问题了,当时没时间记录
这里简单回顾
项目基于
数据架构不方便说太细,最精简的
somedata-> [kafka]->spark-stream->elasticsearch
在 spark-streaming 引用了elasticsearch-hadoop(实际用的是为支持upsert doc自已打包的,见elasticsearch-hadoop 扩展定制 官方包以支持 update upsert doc)
问题是somedata定入kafka 200w条,最后到elasticsearch 190w条,有10w条不见了,也不报任何错误,批处理任务都是成功的。
首先排入kafka的消费问题,基于kafka自已实现了一套offset偏移维护的机制,不可能在消费kafka这一步丢数
唯一可能的就是 elasticsearch-hadoop 写 elasticsearch 这一步了
class SparkDStreamFunctions(ds: DStream[_]) extends Serializable {
def saveToEs(resource: String): Unit = { EsSparkStreaming.saveToEs(ds, resource) }
def saveToEs(resource: String, cfg: Map[String, String]): Unit = { EsSparkStreaming.saveToEs(ds, resource, cfg) }
def saveToEs(cfg: Map[String, String]): Unit = { EsSparkStreaming.saveToEs(ds, cfg) }
}
写入es调用包内的saveToEs方法,scala Unit 类似java 的void 这个方法是无返回值的。这里看不出什么线索
隐约能感觉到问题在哪里。
elasticsearch 是以乐观锁,版本号来实现基本的事务控制
操作elasticsearch时,相信大部分人都遇到过版本冲突的问题,报错类似
{
"error" : "VersionConflictEngineException[[website][2] [blog][1]:
version conflict, current [2], provided [1]]",
"status" : 409
}
但saveToEs这个方法是没有返回值的????也就是说能保证不会碰到这个错误?
当然不是,查看源码后发现
saveToEs无返回值,不代表就这批数据就完全成功了
实际会打印错误日志,不过只是在对这个包开启debug后才会打印,默认的情况下是不开的。包的开发者们认为这种版本冲突的错,如果抛到顶层,让整个任务失败太小题大作了,因此也不会往外抛,只会对比较"大"的异常才会抛到顶层。
实际上 elasticsearch-hadoop 会在一批任务写入失败后,隔一段时间重试,重试几次后,直接跳过这组数据,这数据等于就丢弃了。(代码就不贴了,因为github上最新的代码和我当时排查时不一样,可能有变化,问题已经解决,这次回顾也没精力细究了,如果贴错了还误人子弟)
官方的配置文档
https://www.elastic.co/guide/en/elasticsearch/hadoop/current/configuration.html
es.batch.write.retry.count (default )
Number of retries for a given batch in case Elasticsearch is overloaded and data is rejected. Note that only the rejected data is retried. If there is still data rejected after the retries have been performed, the Hadoop job is cancelled (and fails). A negative value indicates infinite retries; be careful in setting this value as it can have unwanted side effects.
es.batch.write.retry.wait (default 10s)
Time to wait between batch write retries that are caused by bulk rejections.
这两个参数就是重试相关的配置。
加了这3个参数后,就解决丢数的问题
"es.batch.write.retry.count" -> "-1",
"es.batch.write.retry.wait" -> "60s",
"es.batch.size.entries" -> "50"
es.batch.write.retry.count 表示无限重试,这个得谨慎着用最主要是改这个,我手里这套系统正好可以这么用。
es.batch.write.retry.wait 重试间隔由默认的10s改为60s,这个只是优化的
es.batch.size.entries也是优化的
es.batch.size.entries (default )
Size (in entries) for batch writes using Elasticsearch bulk API - ( disables it). Companion to es.batch.size.bytes, once one matches, the batch update is executed. Similar to the size, this setting is per task instance; it gets multiplied at runtime by the total number of Hadoop tasks running.
elasticsearch集群本身不提供权限控制,大部分架构都会在之前加个nginx
如果单个文档都很大的话,默认的1000个,可能会超过nginx 限制的单独http的body大小,nginx直接就让请求失败了,把这个数改小,是为了避免这种情况。
以elasticsearch-hadoop 向elasticsearch 导数,丢失数据的问题排查的更多相关文章
- 基于Nutch+Hadoop+Hbase+ElasticSearch的网络爬虫及搜索引擎
基于Nutch+Hadoop+Hbase+ElasticSearch的网络爬虫及搜索引擎 网络爬虫架构在Nutch+Hadoop之上,是一个典型的分布式离线批量处理架构,有非常优异的吞吐量和抓取性能并 ...
- 我的ElasticSearch集群部署总结--大数据搜索引擎你不得不知
摘要:世上有三类书籍:1.介绍知识,2.阐述理论,3.工具书:世间也存在两类知识:1.技术,2.思想.以下是我在部署ElasticSearch集群时的经验总结,它们大体属于第一类知识“techknow ...
- elasticsearch REST API方式批量插入数据
elasticsearch REST API方式批量插入数据 1:ES的服务地址 http://127.0.0.1:9600/_bulk 2:请求的数据体,注意数据的最后一行记得加换行 { &quo ...
- [搜索]ElasticSearch Java Api(一) -添加数据创建索引
转载:http://blog.csdn.net/napoay/article/details/51707023 ElasticSearch JAVA API官网文档:https://www.elast ...
- Hadoop vs Elasticsearch – Which one is More Useful
Hadoop vs Elasticsearch – Which one is More Useful Difference Between Hadoop and Elasticsearch H ...
- elasticsearch river 从数据库中导入数据
Elasticsearch中使用reiver-jdbc导入数据 2014-05-13 15:10 本站整理 浏览(3384) Elasticsearch中使用reiver-jdbc导入数据,有 ...
- 【ElasticSearch篇】--ElasticSearch从初识到安装和应用
一.前述 ElasticSearch是一个基于Lucene的搜索服务器.它提供了一个分布式多用户能力的全文搜索引擎,基于RESTful web接口,在企业中全文搜索时,特别常用. 二.常用概念 clu ...
- Kafka丢失数据问题优化总结
数据丢失是一件非常严重的事情事,针对数据丢失的问题我们需要有明确的思路来确定问题所在,针对这段时间的总结,我个人面对kafka 数据丢失问题的解决思路如下: 是否真正的存在数据丢失问题,比如有很多时候 ...
- 【原创】《从0开始学Elasticsearch》—初识Elasticsearch
目录 1. Elasticsearch 是什么2. Elasticsearch 中基本概念3. Elasticsearch 安装4. 访问 Elasticsearch 1. Elasticsearch ...
随机推荐
- 技术沙龙|京东云区块链进校园-京东云&深圳大学线下沙龙分享回顾
在刚刚结束的京东云&深圳大学技术沙龙活动中,多位京东云的技术大咖针对京东云BDS产品技术细节.开源计划,与深圳大学的同学和参会者进行了深入探讨,干货满满反响深刻,获得了在场同学与参会者的一致好 ...
- bash字符串处理
将movie目录下的文件名写到markdown文件中 , 再转html rm index.md ; for f in `find . *.* | sort`; do [ -f $f ] &&a ...
- SQL基础教程(第2版)第8章 SQL高级处理:练习题
本题中 SELECT 语句的含义是“按照商品编号(product_id)的升序进行排序, 计算出截至当前行的最高销售单价”.因此,在显示出最高销售单价的同时,窗口函 数的返回结果也会变化.这恰好和奥运 ...
- SQL基础教程(第2版)第3章 聚合与排序:3-3 为聚合结果指定条件
第3章 聚合与排序:3-3 为聚合结果指定条件 ● 使用COUNT函数等聚合函数对表中数据进行汇总操作时,为其指定条件的不是WHERE子句,而是HAVING子句.● 聚合函数可以在SELECT子句. ...
- ZJNU 2351 - 快乐
由题意得,如果有个人从前往后能找到第一个不低于自己等级的任务,就会接取其后所有任务 那么就可以让输入数据处理成递增数列 例如1 3 5 4 6 2 7 7 3 可以处理成1 3 5 5 6 6 7 7 ...
- Java反射--getDeclaredField()和getField()
Field getField(String name) 返回当前类以及所继承的类的所有public修饰的成员变量 Field getDeclaredField(String name) 返 ...
- 1. rabbitmq 安装
1. ubuntu 16 18 安装 https://blog.csdn.net/haeasringnar/article/details/82715823 2. centos 7 https://w ...
- PAT Basic 1017 A除以B (20) [数学问题-⼤整数运算]
题目 本题要求计算A/B,其中A是不超过1000位的正整数,B是1位正整数.你需要输出商数Q和余数R,使得A = B * Q + R成⽴. 输⼊格式: 输⼊在1⾏中依次给出A和B,中间以1空格分隔. ...
- 别了JetBrains,换Visual Studio
Visual Studio一直是我排斥的,这么多年一致不用. 2019年JetBrains的注册码越来越频繁的被封杀,我承认使用盗版不对. 试过Eclipse+pydev搞python,但是todo用 ...
- JavaScript 的数据结构与算法
1数组 1.1方法列表 数组的常用方法如下: concat: 链接两个或者更多数据,并返回结果. every: 对数组中的每一项运行给定的函数,如果该函数对每一项都返回true,则返回true. fi ...