工作采坑札记：3. Spark中es-hadoop插件异常解决

1. Es-Hadoop异常：

org.elasticsearch.hadoop.EsHadoopException: Could not write all entries [615/300864] (maybe ES was overloaded?). Bailing out...

    at org.elasticsearch.hadoop.rest.RestRepository.flush(RestRepository.java:235)

    at org.elasticsearch.hadoop.rest.RestRepository.doWriteToIndex(RestRepository.java:186)

    at org.elasticsearch.hadoop.rest.RestRepository.writeToIndex(RestRepository.java:149)

    at org.elasticsearch.spark.rdd.EsRDDWriter.write(EsRDDWriter.scala:49)

    at org.elasticsearch.spark.rdd.EsSpark$$anonfun$saveToEs$1.apply(EsSpark.scala:67)

    at org.elasticsearch.spark.rdd.EsSpark$$anonfun$saveToEs$1.apply(EsSpark.scala:67)

    at org.apache.spark.scheduler.ResultTask.runTask(ResultTask.scala:66)

    at org.apache.spark.scheduler.Task.run(Task.scala:88)

    at org.apache.spark.executor.Executor$TaskRunner.run(Executor.scala:214)

    at java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1149)

    at java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:624)

    at java.lang.Thread.run(Thread.java:748)

异常显示elasticsearch的负载过高，处理方案具体如下(参考)：

a. 增加Es重试次数及等待时间： es.batch.write.retry.count 和 es.batch.write.retry.wait

b. 减少hadoop或spark的任务数或作业数

c. 减少文档/大小的数量（这是每个任务的方式 - 因此具有100个任务的作业将导致每个连接100x（docs））。

工作采坑札记：3. Spark中es-hadoop插件异常解决的更多相关文章

工作采坑札记：1. Hadoop中的BytesWritable误区
1. 背景近日帮外部门的同事处理一个小需求,就是将HDFS中2018年至今所有存储的sequence序列化文件读取出来,重新保存成文本格式,以便于他后续进行处理.由于同事主要做机器学习方向,对had ...
工作采坑札记：2. Hadoop中MultipleInputs的使用陷阱
1. 背景近日在一个Hadoop项目中使用MultipleInputs增加多输入文件时,发现相同路径仅会加载一次,导致后续的统计任务严重失真.本博文旨在记录异常的排查及解决方案. 2. 情景重现 ( ...
工作采坑札记：4. Hadoop获取InputSplit文件信息
1. 场景基于客户的数据处理需求,客户分发诸多小数据文件,文件每行代表一条记录信息,且每个文件以"类型_yyyyMMdd_批次号"命名.由于同一条记录可能存在于多个文件中,且处于 ...
工作采坑札记: 4. linux指定目录使用df和du的统计结果相差很大
1. 背景近日,线上的服务出现异常,调用服务返回的JSON格式数据不完整,导致客户端解析异常,因此记录了本次的填坑之旅(nnd)... 2. 排查过程 2.1 服务器分析登录到服务所在linux服 ...
WIN7中 HttpListener 拒绝访问异常解决 C#
WIN7中 HttpListener 拒绝访问异常解决 C# http://www.cnblogs.com/cmdszh/archive/2012/08/16/httplistener.html ...
【爬坑】在 IDEA 中运行 Hadoop 程序报 winutils.exe 不存在错误解决方案
0. 问题说明环境为 Windows 10 在 IDEA 中运行 Hadoop 程序报 winutils.exe 不存在错误 1. 解决方案 [1.1 解压] 解压 hadoop-2.7.3 ...
SpringBoot中注入RedisTemplate实例异常解决（转）
最近,在项目开发过程中使用了RedisTemplate,进行单元测试时提示“Field redisTemplate in com.example.demo1.dao.RedisDao required ...
Hadoop第6周练习—在Eclipse中安装Hadoop插件及测试(Linux操作系统)
1 运行环境说明 1.1 硬软件环境 1.2 机器网络环境 2 :安装Eclipse并测试 2.1 内容 2.2 实现过程 2.2.1 2.2.2 ...
eclipse中集成hadoop插件
1.下载并安装eclipse2.https://github.com/winghc/hadoop2x-eclipse-plugin3.下载插件到eclipse的插件目录 4.配置hadoop安装目录 ...

随机推荐

VSCode配置JAVA开发环境
VSCode配置JAVA开发环境 1:给机器安装JDK.MAVEN 下载JDK 下载路径:https://www.oracle.com/technetwork/java/javase/download ...
uoj#422. 【集训队作业2018】小Z的礼物（MIn-Max容斥+插头dp）
题面传送门题解好迷-- 很明显它让我们求的是\(Max(S)\),我们用\(Min-Max\)容斥,因为\(Min(S)\)是很好求的,只要用方案数除以总方案数算出概率,再求出倒数就是期望了然 ...
web安全-点击劫持
web安全-点击劫持 opacity=0 iframe是目标网站被内嵌了 1.用户亲手操作盗取用户视频 2.用户不知情 >* 引导点击其实点击的是覆盖在下面opacity=0的ifram ...
NOIP2018初赛总结(提高组)（试题+答案+简要解析）
NOIP2018初赛总结(提高组) 更新完毕(纯手敲),如果有错误请在下面留言单选题 T1.下列四个不同进制的数中,与其它三项数值上不相等的是 A.\((269)_{16}\) B.\((617)_ ...
10.8 wtx模拟题题解
填坑 orz w_x_c_q w_x_c_q的模拟赛(150pts,炸了) money 题目背景: 王小呆又陷入自己的梦里.(活在梦里...) 题目描述: 王小呆是一个有梦想的小菜鸡,那就是赚好多好多 ...
oracle Date format日期和月份不补0
格式化日期,日,月只有一位小数的只显示一位,不自动加0,在dd/mm 前面加上fm即可去掉前面的0 如:select to_char(t,'YYYY/fmMM/fmDD') from testdata ...
Set\HashSet集合为什么能去重（转）
如果想查找一个集合中是否包含有某个对象,大概的程序代码怎样写呢?当发现某个元素与要查找的对对象进行equals方法比较的结果相等时,则停止继续查找并返回肯定的信息,否则返回否定的信息.如果是一个集合中 ...
java Pattern和Matcher完全解析
基本使用: 本文不讲解正则表达式,需要请看API Scanner中的使用正则表达式 //Scanner 支持的分组 Scanner cin=new Scanner("red a bbc&qu ...
Django 解答 01 （pycharm创建项目）
pycharm创建项目 1. 2. 3.Tools --->Deployment--->Options 这一条由always 改为 On explicit save action(Ctrl ...

工作采坑札记：3. Spark中es-hadoop插件异常解决

工作采坑札记：3. Spark中es-hadoop插件异常解决的更多相关文章

随机推荐

热门专题