SparkWriteToHFile

1. HFile的LoadIncrement卡住

　　原来是因为权限，我一直以为，load函数之后是要删除文件的，但是hdfs://slave1:8020/test/info文件夹所有的是只读权限，而且考出来附加到HFile的时候可能也需要改文件，但是权限不够，所以导致卡在了那个地方。

2.df.rdd明明有值，为什么没有执行到map呢？

　　没有触发，map只是transformation，还需要一个action，比如count；

3.spark分区

　　每个分区对应一个CPU的核

4. Put方式插入到内存中和Increment.bulkLoad的区别

　　Put方式无疑是最简单的，而且在小数量下，其实二者差别不大，但是bulkLoad在开始之初需要对数据进行变形为三元组的形式，这就导致了一定的开销，在实际测试中，当数据大小达到了48M之后，就需要手动来指定--executor-memory，否则就是发生Outofmemory异常；当然这是因为当时测试环境机器数量比较少，但是这种方式无疑是比较消耗内存的；

5. hbase写入，无法删除写入的表

　　发生了问题点其实是在truncate table上面，truncate的本质其实是删除表后重建，删除的表内容其实是放在了/hbase/.tmp/data/default/下面；

　　权限问题是这样的，如果开始使用hdfs权限创建的HFile，拷贝到了hbase的目录下（/hbase/data/default/下面），此时文件权限是"rwxr-xr-x hdfs:hbase"，hbase组只有读取和执行权限；在删除HFile的时候，会把HFile文件拷贝到/hbase/.tmp文件夹下，归档（Archieve）就会面临权限问题，因为删除的用户是hbase（在hbase组中），文件权限是hdfs，所以会有问题。

如何泛泛的遍历6.row获取值和列名

开始的处理方式：

    var data = new ListBuffer[(String, String, String)]

    val rddSchema = df.schema.fieldNames

    df.rdd.foreach(row => {

      var rowkey: String = row.getAs[String]("CUSTID")

      for (fieldName: String <- row.schema.fieldNames) {

        val value: String = row.getAs[String](fieldName)

        data.append((rowkey, fieldName, row.getAs[String](fieldName)))

      }

　　}

这种方式碰到了一个异常：碰到了个异常：java.math.BigDecimal cannot be cast to java.lang.String。这是因为如果非String类型的，getAs[String]将会报错

改变了处理方式：

    var data = new ListBuffer[(String, String, String)]

    val rddSchema = df.schema.fieldNames

    // TODO rowkey need read from config

    // TODO best can get data by map but not foreach

    df.rdd.foreach(row => {

      var rowkey: String = row.getAs[String]("CUSTID")

      for (i <- 1 until row.length) {

        val fieldName = rddSchema(i).toString

        val value = row(i).toString()

        data.append((rowkey, fieldName, value))

      }

    }

row(i).toString没有类型转换问题。

7. 查看日志

　　对于提交到YARN上面的任务，想要看代码中println的内容，可以在Resource Web UI上面，点击最有一列Trace UI，在跳转的页面中点击上面的"Executors"，在Executors列表中，你将会看到Logs一列，里面的stdout链接，在stdout最下面即为用户程序输出日志。注意这个是executor的日志；driver的日志可以通过控制台直接看到。另外Standalone模式，对应的日志输出在NodeManager节点的 spark安装目录/work/。
　　yarn.log-aggregation-enable，yarn的executor日志是聚合日志，是在任务完成后，汇聚个台机器的日志而成
8. 序列化异常
java.io.NotSerializableException: org.apache.hadoop.hbase.io.ImmutableBytesWritable
　　指定序列化类，问题解决：

val sc = new SparkContext(new 
SparkConf().setAppName("aaa").setMaster("local[*]").set("spark.serializer", "org.apache.spark.serializer.KryoSerializer"))

　　又爆异常：
java.io.IOException: com.esotericsoftware.kryo.KryoException: java.lang.IndexOutOfBoundsException: Index: 108, Size: 10
Serialization trace:familyMap (org.apache.hadoop.hbase.client.Put)
　　这类问题，处理方式尽量保证你的代码处理上面，map内部不要引用本类中函数。

8. sparkContext必须要指定名称

　　 val sc = new SparkContext(new SparkConf().setMaster("local[*]"))报错：
　　An application name must be set in your configuration

　　指定appName之后问题解决，因为这个name是要在YARN的管理页面做现实（见上面的“查看日志”），用于跟踪所执行任务执行的情况。
　　 val sc = new SparkContext(new SparkConf().setAppName("aaa").setMaster("local[*]"))
9. .size导致指针到迭代器尾部

putValues.repartitionAndSortWithinPartitions(regionSplitPartitioner).foreachPartition(part => {
try {
println("*******************get in the partition part size: " + part.size + "***************")

while (part.hasNext) {... ...}
part.size就会导致一次遍历到尾部，导致part.haseNext为false

10. 内存溢出

Exception in thread "main" java.lang.OutOfMemoryError: GC overhead limit exceeded

...

Exception in thread "dag-scheduler-event-loop" java.lang.OutOfMemoryError: Java heap space

...

　　这些异常的原因是分配给yarn执行程序的内存空间不够，所以需要手动设定”--driver-memory 2G”，这样，异常消失。但是伴随着数据量的增加，这个手动的设置值也要跟着增加。发生这种异常多半是因为在内存中做了flatMap等消耗比较大的操作，如果是Map，因为都是一行一行从物理文件中读取，所以不会出现此问题。

11. Task not serializable

Exception in thread "main" org.apache.spark.SparkException: Task not serializable
...
Caused by: java.io.NotSerializableException: com.cmiot.bulkload.HBaseBulkLoader
Serialization stack:
- object not serializable (class: com.cmiot.bulkload.HBaseBulkLoader, value: com.cmiot.bulkload.HBaseBulkLoader@38588dea)
- field (class: com.cmiot.bulkload.HBaseBulkLoader$$anonfun$bulkLoad$2, name: $outer, type: class com.cmiot.bulkload.HBaseBulkLoader)

这个问题的异常是因为map中的代码中引用了不可序列化的内容；我的代码爆了这个错误是因为用了几个org.apache.haddop.conf.Configuration等类；解决方法就是把这些内容统统放在map的匿名函数中进行处理，不要再外部搞。
12. zookeeper的获取HBase配置异常: Connection refused
17/10/11 14:50:32 INFO zookeeper.ClientCnxn: Opening socket connection to server localhost/0:0:0:0:0:0:0:1:2181. Will not attempt to authenticate using SASL (unknown error)
17/10/11 14:50:32 WARN zookeeper.ClientCnxn: Session 0x0 for server null, unexpected error, closing socket connection and attempting reconnect
java.net.ConnectException: Connection refused
at sun.nio.ch.SocketChannelImpl.checkConnect(Native Method)
这个是因为通过zookeeper获取HBase信息的时候发生异常，地址不对；这是因为上面的那个异常导致了我把所有的配置都放到了map匿名函数中，但是没有做初始化。增加了初始化内容后，获取了正确的配置信息即可：

val hbaseConfig = ConfigFactory.load("hbase.properties")

val prod = hbaseConfig.getString("hbase.zookeeper.property.clientPort")

val parent = hbaseConfig.getString("zookeeper.znode.parent")

val quorum = hbaseConfig.getString("hbase.zookeeper.quorum")

    rdd.flatMap(r => flatMap(r)).repartitionAndSortWithinPartitions(regionSplitPartitioner).foreachPartition { part =>

      val config = HBaseConfiguration.create()

      config.set("hbase.zookeeper.property.clientPort", prod)

      config.set("zookeeper.znode.parent", parent)

      config.set("hbase.zookeeper.quorum", quorum)

      val fs = HFileSystem.get(conf)

　　粗体倾斜部分之前就是一句话：val config = new Configuration()；另外注意ConfigFactory.load不能放在map/foreahPartition里面，因为需要加载本地文件。
　　但是后来发现这样写也不行，因为编译之后map函数里面的prod等变量都变成了BulkLoader.this.prod的形式，BulkLoader还是会出现；于是我让这个类继承了Serializable，因为构造参数中还有一个Confguration，添加了@transient，进行了屏蔽。
　　 class HBaseBulkLoader(@transient conf: Configuration) extends Serializable{... ... }
粗体倾斜部分之前就是一句话：val config = new Configuration()；另外注意ConfigFactory.load不能放在map/foreahPartition里面，因为需要加载本地文件。
但是后来发现这样写也不行，因为编译之后map函数里面的prod等变量都变成了BulkLoader.this.prod的形式，BulkLoader还是会出现；于是我让这个类继承了Serializable，因为构造参数中还有一个Confguration，添加了@transient，进行了屏蔽。
　　 class HBaseBulkLoader(@transient conf: Configuration) extends Serializable{... ... }

13. spark写入HBase异常

　　spark将hive数据写入到HBase。

　　原始问题：

　　Caused by: java.lang.NullPointerException

　　　　at org.apache.hadoop.hbase.zookeeper.ZooKeeperWatcher.getMetaReplicaNodes(ZooKeeperWatcher.java:269)

　　网调发现主要说的是插入HBase的值为NULL导致的，但是我在定义Put对象的时候，发现即使全部写成固定值，仍然报同样的错误。经历了各种尝试之后，我想要验证一下Put的值是否正确，于是我决定换一种方式来实现，直接使用HTable的方式来提交数据。

　　spark-submit之后发现了类似的错误，不过似乎信息更加明确：

　　17/10/10 14:50:32 INFO client.ZooKeeperRegistry: ClusterId read in ZooKeeper is null

　　Exception in thread "main" java.lang.NullPointerException

　　基于新发现的报错，继续网调，解决：

　　HBase里面的配置中，zookeeper.znode.parent字段被配置为“/hbase-unsecurity"，但是CDH中zookeeper中的根节点配置为/hbae；保持一致即可

　　网调很多时候比较具有迷惑性，它在缩小你的调查范围的同时，可能也在把正确的点排除在你调查范围内。尝试多种方式来实现，来缩小问题的范围，是一种解决思路。可能会有不同效果。

SparkWriteToHFile的更多相关文章

随机推荐

【BZOJ4069】[Apio2015]巴厘岛的雕塑按位贪心+DP
[BZOJ4069][Apio2015]巴厘岛的雕塑 Description 印尼巴厘岛的公路上有许多的雕塑,我们来关注它的一条主干道. 在这条主干道上一共有 N 座雕塑,为方便起见,我们把这些雕塑从 ...
【BZOJ2806】[Ctsc2012]Cheat 广义后缀自动机+二分+单调队列优化DP
[BZOJ2806][Ctsc2012]Cheat Description Input 第一行两个整数N,M表示待检查的作文数量,和小强的标准作文库的行数接下来M行的01串,表示标准作文库接下来N行的 ...
Ubuntu 12.04使用uginx+fastcgi-mono-server2部署asp.net 网站
Ubuntu 12.04使用uginx+fastcgi-mono-server2部署asp.net 网站 1.安装nginx和mono-fastcgi-server2 sodu apt-get in ...
第二课创建http server
nodejs 不需要单独安装服务器软件 tomcat .apache. iis 看下面的代码创建了http服务器,并输出一些简单的响应内容 //引入http 模块 var http = require ...
S-形函数广泛应用于ANN 的激活函数
Logistic function hyperbolic tangent arctangent function Gudermannian function Error function ...
我的Android进阶之旅------>android:drawableLeft的用法
有时候想在EditText左边放一个图片,如图所示: 就可以在xml布局文件中的EditText定义代码中,添加入下面的代码,即可实现: android:drawableLeft="@dra ...
制作透明的图标ICO
1.使用crowldraw画图保存为PNG格式,选择"被遮盖区域",然后保存(保存为PNG的透明格式). 2.使用IconWorkshop把透明的PNG格式导出为ICO.
HR_ROS 节点信息
https://stackoverflow.com/questions/24638063/install-node-serialport-module-on-arm-linux https://blo ...
vim 正则表达式查找ip
特别说明: \v \v 表示 very magic 这种模式下很多字符默认就表示一些特殊意义,而不用加 \ 如 : < 单词开头 > 单词结尾 ( 组开始 ) 组结束 { 次数开始 } 次 ...
[原创]java WEB学习笔记28：会话与状态管理Cookie 机制
本博客为原创:综合尚硅谷(http://www.atguigu.com)的系统教程(深表感谢)和网络上的现有资源(博客,文档,图书等),资源的出处我会标明本博客的目的:①总结自己的学习过程,相当 ...

SparkWriteToHFile

SparkWriteToHFile的更多相关文章

随机推荐

热门专题