SparkWriteToHFile
1. HFile的LoadIncrement卡住
发生了问题点其实是在truncate table上面,truncate的本质其实是删除表后重建,删除的表内容其实是放在了/hbase/.tmp/data/default/下面;
权限问题是这样的,如果开始使用hdfs权限创建的HFile,拷贝到了hbase的目录下(/hbase/data/default/下面),此时文件权限是"rwxr-xr-x hdfs:hbase",hbase组只有读取和执行权限;在删除HFile的时候,会把HFile文件拷贝到/hbase/.tmp文件夹下,归档(Archieve)就会面临权限问题,因为删除的用户是hbase(在hbase组中),文件权限是hdfs,所以会有问题。
如何泛泛的遍历6.row获取值和列名
开始的处理方式:
var data = new ListBuffer[(String, String, String)]
val rddSchema = df.schema.fieldNames df.rdd.foreach(row => {
var rowkey: String = row.getAs[String]("CUSTID")
for (fieldName: String <- row.schema.fieldNames) {
val value: String = row.getAs[String](fieldName)
data.append((rowkey, fieldName, row.getAs[String](fieldName)))
}
}
这种方式碰到了一个异常:碰到了个异常:java.math.BigDecimal cannot be cast to java.lang.String。这是因为如果非String类型的,getAs[String]将会报错
改变了处理方式:
var data = new ListBuffer[(String, String, String)]
val rddSchema = df.schema.fieldNames
// TODO rowkey need read from config
// TODO best can get data by map but not foreach
df.rdd.foreach(row => {
var rowkey: String = row.getAs[String]("CUSTID")
for (i <- 1 until row.length) {
val fieldName = rddSchema(i).toString
val value = row(i).toString()
data.append((rowkey, fieldName, value))
}
}
row(i).toString没有类型转换问题。
7. 查看日志
对于提交到YARN上面的任务,想要看代码中println的内容,可以在Resource Web UI上面,点击最有一列Trace UI,在跳转的页面中点击上面的"Executors",在Executors列表中,你将会看到Logs一列,里面的stdout链接,在stdout最下面即为用户程序输出日志。注意这个是executor的日志;driver的日志可以通过控制台直接看到。另外Standalone模式,对应的日志输出在NodeManager节点的 spark安装目录/work/。
yarn.log-aggregation-enable,yarn的executor日志是聚合日志,是在任务完成后,汇聚个台机器的日志而成
8. 序列化异常
java.io.NotSerializableException: org.apache.hadoop.hbase.io.ImmutableBytesWritable
指定序列化类,问题解决:
val sc = new SparkContext(new
SparkConf().setAppName("aaa").setMaster("local[*]").set("spark.serializer", "org.apache.spark.serializer.KryoSerializer"))
又爆异常:
java.io.IOException: com.esotericsoftware.kryo.KryoException: java.lang.IndexOutOfBoundsException: Index: 108, Size: 10
Serialization trace:familyMap (org.apache.hadoop.hbase.client.Put)
这类问题,处理方式尽量保证你的代码处理上面,map内部不要引用本类中函数。
8. sparkContext必须要指定名称
val sc = new SparkContext(new SparkConf().setMaster("local[*]"))报错:
An application name must be set in your configuration
指定appName之后问题解决,因为这个name是要在YARN的管理页面做现实(见上面的“查看日志”),用于跟踪所执行任务执行的情况。
val sc = new SparkContext(new SparkConf().setAppName("aaa").setMaster("local[*]"))
9. .size导致指针到迭代器尾部
putValues.repartitionAndSortWithinPartitions(regionSplitPartitioner).foreachPartition(part => {
try {
println("*******************get in the partition part size: " + part.size + "***************")
while (part.hasNext) {... ...}
part.size就会导致一次遍历到尾部,导致part.haseNext为false
10. 内存溢出
...
...
Caused by: java.io.NotSerializableException: com.cmiot.bulkload.HBaseBulkLoader
Serialization stack:
- object not serializable (class: com.cmiot.bulkload.HBaseBulkLoader, value: com.cmiot.bulkload.HBaseBulkLoader@38588dea)
- field (class: com.cmiot.bulkload.HBaseBulkLoader$$anonfun$bulkLoad$2, name: $outer, type: class com.cmiot.bulkload.HBaseBulkLoader)
这个问题的异常是因为map中的代码中引用了不可序列化的内容;我的代码爆了这个错误是因为用了几个org.apache.haddop.conf.Configuration等类;解决方法就是把这些内容统统放在map的匿名函数中进行处理,不要再外部搞。
12. zookeeper的获取HBase配置异常: Connection refused
17/10/11 14:50:32 INFO zookeeper.ClientCnxn: Opening socket connection to server localhost/0:0:0:0:0:0:0:1:2181. Will not attempt to authenticate using SASL (unknown error)
17/10/11 14:50:32 WARN zookeeper.ClientCnxn: Session 0x0 for server null, unexpected error, closing socket connection and attempting reconnect
java.net.ConnectException: Connection refused
at sun.nio.ch.SocketChannelImpl.checkConnect(Native Method)
这个是因为通过zookeeper获取HBase信息的时候发生异常,地址不对;这是因为上面的那个异常导致了我把所有的配置都放到了map匿名函数中,但是没有做初始化。增加了初始化内容后,获取了正确的配置信息即可:
val hbaseConfig = ConfigFactory.load("hbase.properties")
val prod = hbaseConfig.getString("hbase.zookeeper.property.clientPort")
val parent = hbaseConfig.getString("zookeeper.znode.parent")
val quorum = hbaseConfig.getString("hbase.zookeeper.quorum")
rdd.flatMap(r => flatMap(r)).repartitionAndSortWithinPartitions(regionSplitPartitioner).foreachPartition { part =>
val config = HBaseConfiguration.create()
config.set("hbase.zookeeper.property.clientPort", prod)
config.set("zookeeper.znode.parent", parent)
config.set("hbase.zookeeper.quorum", quorum)
val fs = HFileSystem.get(conf)
粗体倾斜部分之前就是一句话:val config = new Configuration();另外注意ConfigFactory.load不能放在map/foreahPartition里面,因为需要加载本地文件。
但是后来发现这样写也不行,因为编译之后map函数里面的prod等变量都变成了BulkLoader.this.prod的形式,BulkLoader还是会出现;于是我让这个类继承了Serializable,因为构造参数中还有一个Confguration,添加了@transient,进行了屏蔽。
class HBaseBulkLoader(@transient conf: Configuration) extends Serializable{... ... }
粗体倾斜部分之前就是一句话:val config = new Configuration();另外注意ConfigFactory.load不能放在map/foreahPartition里面,因为需要加载本地文件。
但是后来发现这样写也不行,因为编译之后map函数里面的prod等变量都变成了BulkLoader.this.prod的形式,BulkLoader还是会出现;于是我让这个类继承了Serializable,因为构造参数中还有一个Confguration,添加了@transient,进行了屏蔽。
class HBaseBulkLoader(@transient conf: Configuration) extends Serializable{... ... }
SparkWriteToHFile的更多相关文章
随机推荐
- Hadoop生态优秀文章集锦
如何用形象的比喻描述大数据的技术生态?Hadoop.Hive.Spark 之间是什么关系? https://www.zhihu.com/question/27974418 HBase 和 Hive 的 ...
- 京东android面试题(2018 顶级互联网公司面试题系列)
以下来自于北京的一个兄弟的面试题 1.静态内部类和非静态内部类有什么区别 2.谈谈你对java多态的理解 3.如何开启线程,run和runnable有什么区别 4.线程池的好处 5.说一下你知 ...
- Python菜鸟之路:Python基础-生成器和迭代器、递归
一.迭代器 迭代器是访问集合元素的一种方式.迭代器对象从集合的第一个元素开始访问,知道所有的元素被访问完结束.迭代器只能往前不会后退. 1. 迭代器优点 对于无法随机访问的数据结构(比如set)而言, ...
- JNDI知道这么多就够了!
版权声明:本文为博主原创文章,未经博主同意不得转载. https://blog.csdn.net/sunshoupo211/article/details/37924017 JNDI 全称:Java ...
- 去掉标题栏/ActionBar后点击menu键时应用崩溃
MainActivity 继承了 ActionBarActivity后,想要去掉标题栏(ActionBar),在程序中加上requestWindowFeature(Window.FEATURE_NO_ ...
- java 死锁产生原因及解锁(转)
原文地址 进程死锁及解决办法 一.要点提示 (1) 掌握死锁的概念和产生死锁的根本原因. (2) 理解产生死锁的必要条件--以下四个条件同时具备:互斥条件.不可抢占条件.占有且申请条件.循环等待条件. ...
- sql把字符数组转换成表
需求:把字符串1,2,3变成表里的行数据 方法:用自定义函数实现 /* 获取字符串数组的 Table */ from sysobjects where id = object_id('Get_StrA ...
- php......调研投票练习
调研题目与调研选项显示页面<style type="text/css"> #list{ width:400px; height:200px;} #jieguo{ wid ...
- HackerRank - flipping-the-matrix 【数学】
题意 一个矩阵中 每一行 每一列 都可以倒置 在不断进行倒置后 求 左上的那个 N * N 矩阵 的和 最大为多少 思路 M = 2 * N 通过 倒置特性 我们可以发现,最左上的那个矩阵 第 [I] ...
- form表单提交信息的方式
form表单提交信息的方法有两种,一种是get,一种是post.get提交的数据是在地址栏上提交,一般隐私数据不会选择这样方式.地址栏上只能提交字符. 如果使用的是post提交,那么信息都在消息正文中 ...