记一次newApiHadoopRdd查询数据不一致问题

现象：

+----------+-------+--------+-----+-----+-----+----+----+------+---------+-------+--------+--------+------------+
|totalCount|January|February|March|April| May|June|July|August|September|October|November|December|totalMileage|
+----------+-------+--------+-----+-----+-----+----+----+------+---------+-------+--------+--------+------------+
| 33808| 0| 0| 0| 0|33798| 0| 0| 0| 0| 0| 0| 0| 79995.0|
+----------+-------+--------+-----+-----+-----+----+----+------+---------+-------+--------+--------+------------+

当前表预分区10个

按照当月数据看，当前测试表中总数量是：33798

hbase的总数量也是：33798

神奇的地方：使用sparkSQL对接hbase查询的数量是：33808

当时的sql语句是：select count(1) from orderData

很神奇，因为通过sql查询后，总数据多了10条

============================================================

原因：

这里设置了hbase SCAN_BATCHSIZE这个值，会设置scan的batchsize。这个设置的文档是这样说的：

Set the maximum number of values to return for each call to next()

之前一直以为这里是设置一次读取多少行，其实values貌似是读取多少列，并且开启了这个值会导致hbase scan时返回一行的部分结果；

于是将这个设置注释掉，程序即可正常运行

进一步的，我们从hbase端代码看看这个设置。hbase的scan会两个成员变量：

private boolean allowPartialResults = false;
private int batch = -1;

allowPartialResult这个很明显就是会返回部分结果的设置，那么这个batch呢？setBatch()时并不会设置allowPartialResult。但是在Scan的getResultsToAddToCache()函数中，如果batch值大于0，会设置isBatch=true。之后会有这段代码：

// If the caller has indicated in their scan that they are okay with seeing partial results,

// then simply add all results to the list. Note that since scan batching also returns results

// for a row in pieces we treat batch being set as equivalent to allowing partials. The

// implication of treating batching as equivalent to partial results is that it is possible

// the caller will receive a result back where the number of cells in the result is less than

// the batch size even though it may not be the last group of cells for that row.

    if (allowPartials || isBatchSet) {

      addResultsToList(resultsToAddToCache, resultsFromServer, ,

          (null == resultsFromServer ?  : resultsFromServer.length));

      return resultsToAddToCache;

    }

之前错误代码：

TableInputFormat.SCAN_BATCHSIZE

lazy val buildScan = {

    val hbaseConf = HBaseConfiguration.create()

    hbaseConf.set("hbase.zookeeper.quorum", GlobalConfigUtils.hbaseQuorem)

    hbaseConf.set(TableInputFormat.INPUT_TABLE, hbaseTableName)

    hbaseConf.set(TableInputFormat.SCAN_COLUMNS, queryColumns)

    hbaseConf.set(TableInputFormat.SCAN_ROW_START, startRowKey)

    hbaseConf.set(TableInputFormat.SCAN_ROW_STOP, endRowKey)

    hbaseConf.set(TableInputFormat.SCAN_BATCHSIZE , "")//TODO 此处导致查询数据不一致

    hbaseConf.set(TableInputFormat.SCAN_CACHEDROWS , "")

    hbaseConf.set(TableInputFormat.SHUFFLE_MAPS , "")

    val hbaseRdd = sqlContext.sparkContext.newAPIHadoopRDD(

      hbaseConf,

      classOf[org.apache.hadoop.hbase.mapreduce.TableInputFormat],

      classOf[org.apache.hadoop.hbase.io.ImmutableBytesWritable],

      classOf[org.apache.hadoop.hbase.client.Result]

    )

    val rs: RDD[Row] = hbaseRdd.map(tuple => tuple._2).map(result => {

      var values = new ArrayBuffer[Any]()

      hbaseTableFields.foreach { field =>

        values += Resolver.resolve(field, result)

      }

      Row.fromSeq(values.toSeq)

    })

    rs

  }

解决：

去掉TableInputFormat.SCAN_BATCHSIZE的设置即可

去掉后的查询结果：

+----------+-------+--------+-----+-----+-----+----+----+------+---------+-------+--------+--------+------------+
|totalCount|January|February|March|April| May|June|July|August|September|October|November|December|totalMileage|
+----------+-------+--------+-----+-----+-----+----+----+------+---------+-------+--------+--------+------------+
| 33798| 0| 0| 0| 0|33798| 0| 0| 0| 0| 0| 0| 0| 79995.0|
+----------+-------+--------+-----+-----+-----+----+----+------+---------+-------+--------+--------+------------+

问题解决~

记一次newApiHadoopRdd查询数据不一致问题的更多相关文章

记一次ES查询数据突然变为空的问题
基本环境 elasticsearch版本:6.3.1 客户端环境:kibana 6.3.4.Java8应用程序模块. 其中kibana主要用于数据查询诊断和查阅日志,Java8为主要的客户端,数据插入 ...
MySQL主从复制数据不一致问题【自增主键】
前言: 今天遇到主从表不一致的情况,很奇怪为什么会出现不一致的情况,因为复制状态一直都是正常的.最后检查出现不一致的数据都是主键,原来是当时初始化数据的时候导致的.现在分析记录下这个问题,避免以后再遇 ...
使用 JdbcTemplate 查询数据时报错：列名无效（已解决）
又犯了一个错误. 争取没有下次了. 就算再犯,也要知道去哪找答案. 所以,记录一下,以示警戒. 报错使用 JdbcTemplate 查询数据时,出现异常: PreparedStatementCall ...
pt-table-checksum检验主从数据不一致
测试环境:主从架构,操作系统liunx 运行pt-table-checksum需要先安装以下依赖包: yum install perl-IO-Socket-SSL perl-DBD-MySQL per ...
揭秘MySQL主从数据不一致
前言: 目前MySQL数据库最常用的是主从架构,大多数高可用架构也是通过主从架构演变而来.但是主从架构运行时间长久后容易出现数据不一致的情况,比如因从库可写造成的误操作或者复制bug等,本篇文章将会详 ...
Redis面试题记录--缓存双写情况下导致数据不一致问题
转载自:https://blog.csdn.net/lzhcoder/article/details/79469123 https://blog.csdn.net/u013374645/article ...
由数据迁移至MongoDB导致的数据不一致问题及解决方案
故事背景企业现状 2019年年初,我接到了一个神秘电话,电话那头竟然准确的说出了我的昵称:上海小胖. 我想这事情不简单,就回了句:您好,我是小胖,请问您是? "我就是刚刚加了你微信的 xx ...
三年之久的 etcd3 数据不一致 bug 分析
问题背景诡异的 K8S 滚动更新异常笔者某天收到同事反馈,测试环境中 K8S 集群进行滚动更新发布时未生效.通过 kube-apiserver 查看发现,对应的 Deployment 版本已经是最 ...
解决Redis中数据不一致问题
redis系列之数据库与缓存数据一致性解决方案数据库与缓存读写模式策略写完数据库后是否需要马上更新缓存还是直接删除缓存? (1).如果写数据库的值与更新到缓存值是一样的,不需要经过任何的计算,可以马 ...

随机推荐

poj 3320 复习一下尺取法
尺取法(two point)的思想不难,简单来说就是以下三步: 1.对r point在满足题意的情况下不断向右延伸 2.对l point前移一步 3. 回到1 two point 对连续区间的问题求 ...
ArrayList，LinkedList，Vector区别.TreeSet，TreeSet，LinkedHashSet区别
ArrayList: 基于数组的数据结构,地址连续,一旦数据保存好了,查询效率比较高,但是因为其地址连续,所以增删数据需要移动数据,影响速度内部数组长度默认为10,当需要扩容时,数组长度按1.5倍增 ...
清除SQL日志文件
1.清除errorlog文件 MSSQL在 C:\Program Files\Microsoft SQL Server\MSSQL.1\MSSQL\LOG 目录下存放这一些日志文件,一共是7个,常常会 ...
Linq操作之Except,Distinct,Left Join 【转】
最近项目中用到了Linq中Except,Distinct,Left Join这几个运算,这篇简单的记录一下这几种情形. Except 基础类型使用Linq的运算很简单,下面用来计算两个集合的 ...
Java 实现海康摄像头抓拍图像 Windows、Linux
先抱怨一下,打死都想不到,海康的摄像头SDK居然是一个Java类,还有必须的两个jar包(jna.jar,examples.jar).鬼能想得到会这么命名. 下面开始吧. Windows 把从官网下载 ...
TCP如何保证可靠传输（转）
TCP协议传输的特点主要就是面向字节流.传输可靠.面向连接.这篇博客,我们就重点讨论一下TCP协议如何确保传输的可靠性的. 确保传输可靠性的方式TCP协议保证数据传输可靠性的方式主要有: 校验和序列 ...
Vue-----this.$nextTick()
Vue-----this.$nextTick() $nextTick Vue.nextTick()是在下次 DOM 更新循环结束之后执行延迟回调,在修改数据之后使用 $nextTick,则可以在回调中 ...
8.Hibernate性能优化
性能优化 1.注意session.clear() 的运用,尤其在不断分页的时候 a) 在一个大集合中进行遍历,遍历msg,取出其中额含有敏感字样的对象 b) 另外一种形式的内存泄漏( //面试题:Ja ...
Flink接收RabbitMQ数据写入到Oracle
文件内容项目案例: https://github.com/TaoPanfeng/case/tree/master/03-flink/flink-rabbitmq-oracle FlinkMain.j ...
kbmMWClientQuery判断一个字段是否修改？
function TForm5.IsFieldChanged(aDataSet: TkbmMWCustomClientQuery; aFieldName: string): Boolean; var ...

记一次newApiHadoopRdd查询数据不一致问题

记一次newApiHadoopRdd查询数据不一致问题的更多相关文章

随机推荐

热门专题