spark shc hbase 超时问题 hbase.client.scanner.timeout.period 配置

异常信息

20/02/27 19:36:21 INFO TaskSetManager: Starting task 17.1 in stage 3.0 (TID 56, 725.slave.adh, executor 50, partition 17, RACK_LOCAL, 9698 bytes)

20/02/27 19:36:22 WARN TaskSetManager: Lost task 21.0 in stage 3.0 (TID 24, 728.slave.adh, executor 63): org.apache.hadoop.hbase.client.ScannerTimeoutException: 6603499ms passed since the last invocation, timeout is currently set to 3600000

	at org.apache.hadoop.hbase.client.ClientScanner.loadCache(ClientScanner.java:434)

	at org.apache.hadoop.hbase.client.ClientScanner.next(ClientScanner.java:364)

	at org.apache.spark.sql.execution.datasources.hbase.HBaseTableScanRDD$$anon$2.hasNext(HBaseTableScan.scala:187)

	at scala.collection.Iterator$JoinIterator.hasNext(Iterator.scala:216)

	at scala.collection.Iterator$ConcatIterator.advance(Iterator.scala:183)

	at scala.collection.Iterator$ConcatIterator.hasNext(Iterator.scala:195)

	at scala.collection.Iterator$ConcatIterator.hasNext(Iterator.scala:192)

	at org.apache.spark.sql.execution.datasources.hbase.HBaseTableScanRDD$$anon$3.hasNext(HBaseTableScan.scala:215)

	at scala.collection.Iterator$$anon$11.hasNext(Iterator.scala:408)

	at org.apache.spark.sql.catalyst.expressions.GeneratedClass$GeneratedIteratorForCodegenStage1.processNext(Unknown Source)

	at org.apache.spark.sql.execution.BufferedRowIterator.hasNext(BufferedRowIterator.java:43)

	at org.apache.spark.sql.execution.WholeStageCodegenExec$$anonfun$10$$anon$1.hasNext(WholeStageCodegenExec.scala:614)

	at scala.collection.Iterator$$anon$11.hasNext(Iterator.scala:408)

	at org.apache.spark.shuffle.sort.BypassMergeSortShuffleWriter.write(BypassMergeSortShuffleWriter.java:148)

	at org.apache.spark.scheduler.ShuffleMapTask.runTask(ShuffleMapTask.scala:96)

	at org.apache.spark.scheduler.ShuffleMapTask.runTask(ShuffleMapTask.scala:53)

	at org.apache.spark.scheduler.Task.run(Task.scala:109)

	at org.apache.spark.executor.Executor$TaskRunner.run(Executor.scala:345)

	at java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1149)

	at java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:624)

	at java.lang.Thread.run(Thread.java:748)

Caused by: org.apache.hadoop.hbase.UnknownScannerException: org.apache.hadoop.hbase.UnknownScannerException: Name: 39288877, already closed?

	at org.apache.hadoop.hbase.regionserver.RSRpcServices.scan(RSRpcServices.java:2128)

	at org.apache.hadoop.hbase.protobuf.generated.ClientProtos$ClientService$2.callBlockingMethod(ClientProtos.java:32205)

	at org.apache.hadoop.hbase.ipc.RpcServer.call(RpcServer.java:2034)

	at org.apache.hadoop.hbase.ipc.CallRunner.run(CallRunner.java:107)

	at org.apache.hadoop.hbase.ipc.RpcExecutor.consumerLoop(RpcExecutor.java:130)

	at org.apache.hadoop.hbase.ipc.RpcExecutor$1.run(RpcExecutor.java:107)

	at java.lang.Thread.run(Thread.java:745)

	at sun.reflect.NativeConstructorAccessorImpl.newInstance0(Native Method)

	at sun.reflect.NativeConstructorAccessorImpl.newInstance(NativeConstructorAccessorImpl.java:62)

	at sun.reflect.DelegatingConstructorAccessorImpl.newInstance(DelegatingConstructorAccessorImpl.java:45)

	at java.lang.reflect.Constructor.newInstance(Constructor.java:423)

	at org.apache.hadoop.hbase.RemoteExceptionHandler.decodeRemoteException(RemoteExceptionHandler.java:97)

	at org.apache.hadoop.hbase.client.ScannerCallable.call(ScannerCallable.java:266)

	at org.apache.hadoop.hbase.client.ScannerCallable.call(ScannerCallable.java:62)

	at org.apache.hadoop.hbase.client.RpcRetryingCaller.callWithoutRetries(RpcRetryingCaller.java:200)

	at org.apache.hadoop.hbase.client.ScannerCallableWithReplicas$RetryingRPC.call(ScannerCallableWithReplicas.java:350)

	at org.apache.hadoop.hbase.client.ScannerCallableWithReplicas$RetryingRPC.call(ScannerCallableWithReplicas.java:324)

	at org.apache.hadoop.hbase.client.RpcRetryingCaller.callWithRetries(RpcRetryingCaller.java:126)

	at org.apache.hadoop.hbase.client.ResultBoundedCompletionService$QueueingFuture.run(ResultBoundedCompletionService.java:64)

	... 3 more

---

首先查到了需要调整参数 base.client.scanner.timeout.period，项目使用shc 不是外部维护的conf，配置如何加是个问题

方式1 改本地配置，找到两个可能的配置文件
/opt/hbase/conf/hbase-site.xml
/opt/hadoop/etc/hadoop/hbase-site.xml

添加

<property>
<name>hbase.client.scanner.timeout.period</name>
<value>36100000</value>
</property>

提交，问题依旧

方式2 官方 readme.md 有相关的示例

https://github.com/hortonworks-spark/shc

./bin/spark-submit --class your.application.class --master yarn-client --packages com.hortonworks:shc-core:1.1.-2.1-s_2. --repositories http://repo.hortonworks.com/content/groups/public/ --jars /usr/hdp/current/phoenix-client/phoenix-server.jar --files /etc/hbase/conf/hbase-site.xml /To/your/application/jar

主要看到提交了 --files /etc/hbase/conf/hbase-site.xml 文件

更改本地 hbase-site.xml 添加

<property>

<name>hbase.client.scanner.timeout.period</name>

<value>36100000</value>

</property>

后 spark-submit --files /etc/hbase/conf/hbase-site.xml

线上任务失败报错，任务无法执行，猜测是线上本身有hbase-site.xml和本地的hbase-site.xml 不一致,提交本地hbase-site.xml文件，覆盖了原本正常的配置，导致异常

可以找hbase的维护方，要一个完整的线上配置文件，再添加hbase.client.scanner.timeout.period 项后提交。

方式3 在没有线上原始hbase-site.xml的情况下，试试提交hbase-default.xml

新建文件 hbase-default.xml

<?xml version="1.0"?>

<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>

<configuration>

<property>

<name>hbase.client.scanner.timeout.period</name>

<value>3620000</value>

</property>

</configuration>

后 spark-submit --files /etc/hbase/conf/hbase-default.xml

报错
20/02/27 22:53:40 INFO SparkContext: Successfully stopped SparkContext
20/02/27 22:53:40 INFO ApplicationMaster: Unregistering ApplicationMaster with FAILED (diag message: User class threw exception: java.lang.RuntimeException: hbase-default.xml file seems to be for an older version of H
Base (null), this version is 1.2.2
at org.apache.hadoop.hbase.HBaseConfiguration.checkDefaultsVersion(HBaseConfiguration.java:71)

首先报错，原因是hbase-site.xml检查版本,hbase-default.xml版本不一致，虽然报错，不过看到希望了，有检测，表示会加载

添加项 hbase.defaults.for.version和线上hbase版本一致

<?xml version="1.0"?>

<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>

<configuration>

<property>

<name>hbase.client.scanner.timeout.period</name>

<value>3620000</value>

</property>

<property>

<name>hbase.defaults.for.version</name>

<value>1.2.2</value>

</property>

</configuration>

提交任务执行正常

但依然报错

20/02/27 19:36:22 WARN TaskSetManager: Lost task 21.0 in stage 3.0 (TID 24, 728.slave.adh, executor 63): org.apache.hadoop.hbase.client.ScannerTimeoutException: 3803499ms passed since the last invocation, timeout is currently set to 3600000

hbase-default.xml的配置根本就没有生效，比较奇怪，有检测版本的异常，则应该是加载hbase-default.xml文件，配置已经加进去了，先放下

---

方法4

官方

https://github.com/hortonworks-spark/shc/issues/160

There are two ways to do this:
(1) put your extra configurations in a file, and make the file as the value of HBaseRelation.HBASE_CONFIGFILE. Refer to here.

(2) put your extra configurations in json format, and make the json as the value of HBaseRelation.HBASE_CONFIGURATION.

没有指定HBaseRelation.HBASE_CONFIGFILE则用path下的配置，但上面几种改hbase-default.xml，hbase-site.xml的方式都失败了

试试 HBaseRelation.HBASE_CONFIGURATION.

val hBaseConfiguration = parameters.get(HBaseRelation.HBASE_CONFIGURATION).map(

parse(_).extract[Map[String, String]])

al conf = HBaseConfiguration.create

hBaseConfiguration.foreach(_.foreach(e => conf.set(e._1, e._2)))

hBaseConfigFile.foreach(e => conf.set(e._1, e._2))

conf

parse转json字符串串，再提取extract为 k:v 结构，问时是看这样子json串里的配置会被hbase-site.xml里的替换掉，不知道线上hbase-site.xml里有没有这相配置

试试

.options(Map(
HBaseTableCatalog.tableCatalog -> catalog.catalogEsDocByFields(hTable, fields),
HBaseRelation.HBASE_CONFIGURATION ->"{\"hbase.client.scanner.timeout.period\": \"3820000\"}"
))

提交任务，任务执行

20/02/28 03:35:15 ERROR Executor: Exception in task 16.1 in stage 3.0 (TID 50)
org.apache.hadoop.hbase.client.ScannerTimeoutException: 4092211ms passed since the last invocation, timeout is currently set to 3820000

3820000 虽然报错，但base.client.scanner.timeout.period这个参数是终于生效了

问题解决，补充，因为不同yarn集群path下的hbase-site.xml内容可能不同，方案并不适用全部场景

spark shc hbase 超时问题 hbase.client.scanner.timeout.period 配置的更多相关文章

spark批量写写数据到Hbase中（bulkload方式）
1:为什么大批量数据集写入Hbase中,需要使用bulkload BulkLoad不会写WAL,也不会产生flush以及split. 如果我们大量调用PUT接口插入数据,可能会导致大量的GC操作.除了 ...
由hbase.client.scanner.caching参数引发的血案（转）
转自:http://blog.csdn.net/rzhzhz/article/details/7536285 环境描述 Hadoop 0.20.203.0Hbase 0.90.3Hive 0.80.1 ...
kerberos环境下spark消费kafka写入到Hbase
一.准备环境: 创建Kafka Topic和HBase表 1. 在kerberos环境下创建Kafka Topic 1.1 因为kafka默认使用的协议为PLAINTEXT,在kerberos环境下需 ...
Spark：DataFrame批量导入Hbase的两种方式(HFile、Hive)
Spark处理后的结果数据resultDataFrame可以有多种存储介质,比较常见是存储为文件.关系型数据库,非关系行数据库. 各种方式有各自的特点,对于海量数据而言,如果想要达到实时查询的目的,使 ...
spark（三）从hbase取数据
前言通过spark获取hbase数据的过程中,遇到了InputFormat.文章主要围绕InputFormat介绍.会牵扯到spark,mapreduce,hbase相关内容 InputFormat ...
使用 Spark SQL 高效地读写 HBase
Apache Spark 和 Apache HBase 是两个使用比较广泛的大数据组件.很多场景需要使用 Spark 分析/查询 HBase 中的数据,而目前 Spark 内置是支持很多数据源的,其中 ...
Hbase框架原理及相关的知识点理解、Hbase访问MapReduce、Hbase访问Java API、Hbase shell及Hbase性能优化总结
转自:http://blog.csdn.net/zhongwen7710/article/details/39577431 本blog的内容包含: 第一部分:Hbase框架原理理解第二部分:Hbas ...
HBase伪分布式安装(HDFS)+ZooKeeper安装+HBase数据操作+HBase架构体系
HBase1.2.2伪分布式安装(HDFS)+ZooKeeper-3.4.8安装配置+HBase表和数据操作+HBase的架构体系+单例安装,记录了在Ubuntu下对HBase1.2.2的实践操作,H ...
HBase 实战(1)--HBase的数据导入方式
前言: 作为Hadoop生态系统中重要的一员, HBase作为分布式列式存储, 在线实时处理的特性, 备受瞩目, 将来能在很多应用场景, 取代传统关系型数据库的江湖地位. 本篇博文重点讲解HBase的 ...

随机推荐

通过 spark.files 传入spark任务依赖的文件源码分析
版本:spak2.3 相关源码:org.apache.spark.SparkContext 在创建spark任务时候,往往会指定一些依赖文件,通常我们可以在spark-submit脚本使用--file ...
留学Essay写作常见谬误盘点
留学生在完成英语论文作业的时候总会出现各种各样的谬误,导致最后拿不到高分,甚至挂科,最终只得选择写作完成.本文小编为大家总结出我们留学生在essay写作中几个常见谬误,希望大家有则改之,无则加勉. E ...
Web基础之Redis
Redis 什么是Redis?Redis是一个基于内存的非关系型数据库,简单来说就是一个可持久化的高速缓存. 常用场景: 缓存(数据查询,端链接,新闻内容,商品内容等等)--使用最多聊天室的在线好友 ...
Day3-T2
原题目奶牛Bessie的电脑总是无缘无故地被 FJ 关掉,奶牛 Bessie 非常苦恼,也非常生气.FJ 却发现了一个很神奇的规律(别问是怎么知道的),发现 Bessie 每吃一次草,她的生气值会 ...
springboot入门学习1
springboot学习1 SpringBoot对Spring的缺点进行的改善和优化,基于约定优于配置的思想,可以让开发人员不必在配置与逻辑业务之间进行思维的切换,全身心的投入到逻辑业务的代码编写中 ...
DAO三层架构及工厂模式
目录结构 1.在domain包中创建User实体类 package com.rick.domain; import java.util.Date; public class User { privat ...
Day 10：浅谈正则表达式
正则表达式以检验扣扣号是否合法为例引入正则表达式要求:校验QQ号,要求:必须是5~15位数字,0不能开头. 1.没有正则表达式 public class Demo1 { public static ...
程序员用 Python 扒出 B 站那些“惊为天人”的UP主！
前言 ! 近期B站的跨年晚会因其独特的创意席卷各大视频网站,给公司带来了极大的正面影响,股价也同时大涨,想必大家都在后悔没有早点买B站的股票: 然而今天我们要讨论的不是B站的跨年晚会,而是B站 ...
NABCD模型——星遇
我们项目是个面向希望有新奇体验的用户的社交软件,致力于打造不一样的有趣的社交. 发表后一周预计用户量:1000人 N:(Need,需求) 目前主流社交软件由于时间原因体量越来越大,各种繁琐而不必要的功 ...
go语言使用
设置 package control 在 Preferences->Package Setting->Package Control->Settings - User 中加入 cha ...

spark shc hbase 超时问题 hbase.client.scanner.timeout.period 配置

spark shc hbase 超时问题 hbase.client.scanner.timeout.period 配置的更多相关文章

随机推荐

热门专题