hive on spark 编译时遇到的问题

1.官方网站下载spark 1.5.0的源码

2.根据官方编译即可。

export MAVEN_OPTS="-Xmx2g -XX:MaxPermSize=512M -XX:ReservedCodeCacheSize=512m" build/mvn -Pyarn -Phadoop-2.6 -Dhadoop.version=2.6.0 -DskipTests clean package

./make-distribution.sh --name custom-spark --tgz -Phadoop-2.6 -Pyarn

如你使用的版本是scala2.11 可以做以下操作

./dev/change-scala-version.sh 2.11 mvn -Pyarn -Phadoop-2.4 -Dscala-2.11 -DskipTests clean package

不用再执行 ./make-distribution.sh --name custom-spark --tgz -Phadoop-2.4 -Pyarn

然后将./assembly/target/scala-2.11/ spark-assembly-1.5.0-hadoop2.6.0.jar 大约137MB 将其拷贝到$HIVE_HOME/lib下 hive 启动后，

可以执行 set hive.execution.engine=spark; 即可

调试中遇到的问题：一定要调YARN的内存，否则会获取不到资源

YARN: Diagnostic Messages for this Task: Container [pid=7830,containerID=container_1397098636321_27548_01_000297] is running beyond physical memory limits. Current usage: 2.1 GB of 2 GB physical memory used; 2.7 GB of 4.2 GB virtual memory used. Killing container. Dump of the process-tree for container_1397098636321_27548_01_000297 : |- PID PPID PGRPID SESSID CMD_NAME USER_MODE_TIME(MILLIS) SYSTEM_TIME(MILLIS) VMEM_USAGE(BYTES) RSSMEM_USAGE(PAGES) FULL_CMD_LINE |- 7830 7816 7830 7830 (java) 2547 390 2924818432 539150 /export/servers/jdk1.6.0_25/bin/java -Djava.net.preferIPv4Stack=true -Dhadoop.metrics.log.level=WARN -Xmx2224m -Djava.io.tmpdir=/data2/nm/local/usercache/admin/appcache/application_1397098636321_27548/container_1397098636321_27548_01_000297/tmp -Dlog4j.configuration=container-log4j.properties......

检查yarn-site-xml job内存限制 <property> <name>yarn.scheduler.minimum-allocation-mb</name> <value>2048</value> </property>

解决方法： 1.增加yarn.scheduler.minimum-allocation-mb内存上限。 2.--hiveconf mapred.child.java.opts=-Xmx？？？？m 一定要小于yarn.scheduler.minimum-allocation-mb

如果是vm超了，如下：调整yarn.nodemanager.vmem-pmem-ratio

查看log没有明显的ERROR，但存在类似以下描述的日志 2012-05-16 13:08:20,876 INFO org.apache.hadoop.yarn.server.nodemanager.NodeStatusUpdaterImpl: Sending out status for container: container_id {, app_attempt_id {, application_id {, id: 18, cluster_timestamp: 1337134318909, }, attemptId: 1, }, id: 6, }, state: C_COMPLETE, diagnostics: "Container [pid=15641,containerID=container_1337134318909_0018_01_000006] is running beyond virtual memory limits. Current usage: 32.1mb of 1.0gb physical memory used; 6.2gb of 2.1gb virtual memory used. Killing container.\nDump of the process-tree for container_1337134318909_0018_01_000006 :\n\t|- PID PPID PGRPID SESSID CMD_NAME USER_MODE_TIME(MILLIS) SYSTEM_TIME(MILLIS) VMEM_USAGE(BYTES) RSSMEM_USAGE(PAGES) FULL_CMD_LINE\n\t| - 15641 26354 15641 15641 (java) 36 2 6686339072 8207 /home/zhouchen.zm/jdk1.6.0_23/bin/java 原因：该错误是YARN的虚拟内存计算方式导致，上例中用户程序申请的内存为1Gb，YARN根据此值乘以一个比例（默认为2.1）得出申请的虚拟内存的值，当YARN计算的用户程序所需虚拟内存值大于计算出来的值时，就会报出以上错误。调节比例值可以解决该问题。具体参数为：yarn-site.xml中的yarn.nodemanager.vmem-pmem-ratio

------QIN XIAO YAN --------------

<!-- Site specific YARN configuration properties -->

  <property>

    <description>The hostname of the RM.</description>

    <name>yarn.resourcemanager.hostname</name>

    <value>qxy1</value>

  </property>

 <property>

    <description>The address of the applications manager interface in the RM.</description>

    <name>yarn.resourcemanager.address</name>

    <value>${yarn.resourcemanager.hostname}:8032</value>

  </property>

  <property>

    <description>List of directories to store localized files in. An

      application's localized file directory will be found in:

      ${yarn.nodemanager.local-dirs}/usercache/${user}/appcache/application_${appid}.

      Individual containers' work directories, called container_${contid}, will

      be subdirectories of this.

   </description>

    <name>yarn.nodemanager.local-dirs</name>

    <value>${hadoop.tmp.dir}/nm-local-dir</value>

  </property>

 <property>

    <description>Amount of physical memory, in MB, that can be allocated

    for containers.</description>

    <name>yarn.nodemanager.resource.memory-mb</name>

    <value>4096</value>

  </property>

  <property>

    <description>Ratio between virtual memory to physical memory when

    setting memory limits for containers. Container allocations are

    expressed in terms of physical memory, and virtual memory usage

    is allowed to exceed this allocation by this ratio.

    </description>

    <name>yarn.nodemanager.vmem-pmem-ratio</name>

    <value>2.1</value>

  </property>

  <property>

    <description>Number of vcores that can be allocated

    for containers. This is used by the RM scheduler when allocating

    resources for containers. This is not used to limit the number of

    physical cores used by YARN containers.</description>

    <name>yarn.nodemanager.resource.cpu-vcores</name>

    <value>8</value>

  </property>

<property>

    <description>The class to use as the resource scheduler.</description>

    <name>yarn.resourcemanager.scheduler.class</name>

    <value>org.apache.hadoop.yarn.server.resourcemanager.scheduler.capacity.CapacityScheduler</value>

  </property>

 <property>

    <description>The minimum allocation for every container request at the RM,

    in MBs. Memory requests lower than this will throw a

    InvalidResourceRequestException.</description>

    <name>yarn.scheduler.minimum-allocation-mb</name>

    <value>2048</value>

  </property>

  <property>

    <description>The maximum allocation for every container request at the RM,

    in MBs. Memory requests higher than this will throw a

    InvalidResourceRequestException.</description>

    <name>yarn.scheduler.maximum-allocation-mb</name>

    <value>4096</value>

  </property>

  <property>

    <description>Path to file with nodes to include.</description>

    <name>yarn.resourcemanager.nodes.include-path</name>

    <value></value>

  </property>

     <property>

    <description>

      Where to store container logs. An application's localized log directory

      will be found in ${yarn.nodemanager.log-dirs}/application_${appid}.

      Individual containers' log directories will be below this, in directories

      named container_{$contid}. Each container directory will contain the files

      stderr, stdin, and syslog generated by that container.

    </description>

    <name>yarn.nodemanager.log-dirs</name>

    <value>${yarn.log.dir}/userlogs</value>

  </property>

  <property>

    <description>Time in seconds to retain user logs. Only applicable if

    log aggregation is disabled

    </description>

    <name>yarn.nodemanager.log.retain-seconds</name>

    <value>10800</value>

  </property>

  <property>

    <description>Where to aggregate logs to.</description>

    <name>yarn.nodemanager.remote-app-log-dir</name>

    <value>/tmp/logs</value>

  </property>

 <property>

  <description>The remote log dir will be created at

      {yarn.nodemanager.remote-app-log-dir}/${user}/{thisParam}

    </description>

    <name>yarn.nodemanager.remote-app-log-dir-suffix</name>

    <value>logs</value>

  </property>

<property>

    <name>yarn.nodemanager.aux-services</name>

    <value>mapreduce_shuffle</value>

</property>

<property>

 <name>yarn.log-aggregation-enable</name>

<value>true</value>

</property>

SRARK 启动时报如下错误： Error: A JNI error has occurred, please check your installation and try again

1. SPARK_DIST_CLASSPATH=$(/home/hadoop/hadoop-2.7.2/bin/hadoop classpath)

2. 解决办法：

3. export SCALA_HOME=/opt/scala-2.11.8 4. export SPARK_MASTER_IP=192.168.233.159 5. export SPARK_WORKER_MEMORY=1g 6. export HADOOP_CONF_DIR=/opt/hadoop-2.6.2/etc/hadoop 7. export JAVA_HOME=/opt/jdk1.8.0_77 8. export SPARK_DIST_CLASSPATH=$(/opt/hadoop-2.6.2/bin/hadoop classpath) ##加这条

hive on spark 编译时遇到的问题的更多相关文章

Hive扩展功能(七)--Hive On Spark
软件环境: linux系统: CentOS6.7 Hadoop版本: 2.6.5 zookeeper版本: 3.4.8 主机配置: 一共m1, m2, m3这五部机, 每部主机的用户名都为centos ...
Hive On Spark环境搭建
Spark源码编译与环境搭建 Note that you must have a version of Spark which does not include the Hive jars; Spar ...
Spark记录-源码编译spark2.2.0（结合Hive on Spark/Hive on MR2/Spark on Yarn）
#spark2.2.0源码编译 #组件:mvn-3.3.9 jdk-1.8 #wget http://mirror.bit.edu.cn/apache/spark/spark-2.2.0/spark- ...
Spark入门实战系列--2.Spark编译与部署（下）--Spark编译安装
[注]该系列文章以及使用到安装包/测试数据可以在<倾情大奉送--Spark入门实战系列>获取 .编译Spark .时间不一样,SBT是白天编译,Maven是深夜进行的,获取依赖包速度不同 ...
Spark编译及spark开发环境搭建
最近需要将生产环境的spark1.3版本升级到spark1.6(尽管spark2.0已经发布一段时间了,稳定可靠起见,还是选择了spark1.6),同时需要基于spark开发一些中间件,因此需要搭建一 ...
【原创】大数据基础之Hive（5）hive on spark
hive 2.3.4 on spark 2.4.0 Hive on Spark provides Hive with the ability to utilize Apache Spark as it ...
hive使用spark引擎的几种情况
使用spark引擎查询hive有以下几种方式:1>使用spark-sql(spark sql cli)2>使用spark-thrift提交查询sql3>使用hive on spark ...
Hive数据分析——Spark是一种基于rdd（弹性数据集）的内存分布式并行处理框架，比于Hadoop将大量的中间结果写入HDFS，Spark避免了中间结果的持久化
转自:http://blog.csdn.net/wh_springer/article/details/51842496 近十年来,随着Hadoop生态系统的不断完善,Hadoop早已成为大数据事实上 ...
Hive On Spark保姆级攻略
声明: 此博客参考了官网的配置方式,并结合笔者在实践网上部分帖子时的踩坑经历整理而成这里贴上官方配置说明: [官方]: https://cwiki.apache.org//confluence/di ...

随机推荐

Oracle RAC服务器重启故障排查
Oracle Real Application Clusters(Oracle RAC),相对于Oracle单实例来说部署安装和维护都增加了难度,尤其在日常的维护和故障处理过程中,各种日志的查看更加重 ...
ORM跨表查询总结
一.基于对象的查询-->子查询 1.一对多正向查询:基于字段反向查询:基于表名__set.all() 注意:表名全部小写 2.多对多正向查询:基于字段.all() 反向查询:基于表 ...
HGE引擎改进
基于HGEDX9版本修改. hge库: 1.全UNICODE化 2.增加时间模块:Timer_StartTick(),Timer_NowTick()等六个函数 3.增加服从正态分布的随机数生成函数:R ...
GC原理---垃圾收集器
垃圾收集器如果说收集算法是内存回收的方法论,垃圾收集器就是内存回收的具体实现 Serial收集器串行收集器是最古老,最稳定以及效率高的收集器,可能会产生较长的停顿,只使用一个线程去回收.新生代.老 ...
ios--->ios == 和 isEqual的用法区别
ios == 和 isEqual的用法区别首先要理解指针和指针值的却别存放变量地址的变量我们称之为"指针变量",简单的说变量p中存储的是变量a的地址,那么p就可以称为是指针变量 ...
深浅拷贝集合（定义，方法）函数（定义，参数，return，作用域）初识
深浅拷贝在python中浅拷贝 a=[1,2,3,4,]b=a.copy()b[0]='3333'print(a) #[1, 2, 3, 4] 浅拷贝一层并不会对a造成变化print(b) #[33 ...
jQuery使用ajax向node后台发送对象、数组参数
引言最近在使用jq,做一些小demo,但是突然发现jq使用ajax像后台(node)传递一个对象参数,但是后台却接收不了. 原因后面了解到.jq会将一个对象解析成obj[key]: value这样 ...
龙良曲pytorch学习笔记_03
import torch from torch import nn from torch.nn import functional as F from torch import optim impor ...
tmobst5
(单选题)SQL语言又称为() A)结构化定义语言 B)结构化控制语言 C)结构化查询语言 D)结构化操纵语言 2.(单选题)只有满足联接条件的记录才包含在查询结果中,这种联接为( ) A)左联接 B ...
python 类 --导入类
导入类 1.1.导入单个类如何导入单个类以上一节为例,编写一个car.py程序编写一个新程序my_car.py 希望在my.car.py文件中直接使用car.py中的函数,使用from car ...

hive on spark 编译时遇到的问题

hive on spark 编译时遇到的问题的更多相关文章

随机推荐

热门专题