1、安装RServe软件包(各个节点都要安装)

[root@Hadoop-NN-01 mysofts] # R CMD INSTALL Rserve_1.7-2.tar.gz

2、设置环境变量

[root@Hadoop-NN-01 ~]# vi /etc/profile
export R_HOME= /usr/local/lib64/R
export PATH=$PATH:$R_HOME/bin [root@Hadoop-NN-01 ~]# source /etc/profile #保存生效

3、创建Rserv.conf

$R_HOME的目录下创建Rserv.conf文件,写入``remote enable''保存并退出。

vi Rserv.conf
``remote enable''

4、拷贝文件

cp /root/mysofts/R-3.2.5/lib/* /usr/lib64/

5、所有节点启动Rserve

如果没有Rserve请先建立软链:

ln -s /usr/local/lib64/R/bin/Rserve /usr/bin/Rserve

启动:

Rserve --RS-conf /usr/local/lib64/R/Rserv.conf

验证:

telnet Hadoop-NN-01 6311    #显示 Rsrv0103QAP1 则表示连接成功
netstat -tunpl | grep 6311

6、RHive包的安装(各个节点都要安装,因此Hive也要各节点都要安装)

[root@Hadoop-NN-01 mysofts] # R CMD INSTALL RHive_2.0-0.2.tar.gz

创建目录

[root@Hadoop-NN-01 mysofts] # cd $R_HOME
[root@Hadoop-NN-01 mysofts] # mkdir -p rhive/data
[root@Hadoop-NN-01 mysofts] # chmod 777 -R rhive/data

配置环境变量

[root@Hadoop-NN-01 mysofts] # vi /etc/profile
export RHIVE_DATA=/usr/local/lib64/R/rhive/data

如果找不到hadoop命令,把下面加到~/.bashrc中

# hadoop cdh5
export HADOOP_HOME=/home/hadoopuser/hadoop-2.6.0-cdh5.6.0
export PATH=$PATH:$HADOOP_HOME/sbin:$HADOOP_HOME/bin

使用hadoopuser创建hdfs目录

hadoop fs -mkdir /rhive
hadoop fs -mkdir /rhive/lib
hadoop fs -ls /rhive/lib

把jar包拷贝到相应的目录

hadoop fs -put /usr/local/lib64/R/library/RHive/java/rhive_udf.jar /rhive/lib

7、启动

hive客户端启(master、各slave均可)动hive远程服务(rhive是通过thrift连接hiveserver的,需要要启动后台thrift服务):

nohup hive --service hiveserver2 &   #注意这里是hiveserver2

8、RHive测试

1)rhive-api

从HIVE中获得表信息的函数,比如:

rhive.list.tables():获得表名列表,支持pattern参数(正则表达式),类似于HIVE的show table

rhive.desc.table(TableName):表的描述,相当于HIVE中的desc table。

rhive.exist.table(TableName):表是否存在

2)测试

> rhive.env()

3)简单应用

#R
>library(RHive)
>rhive.connect(host ='ip')
>d <- rhive.query('select * from emp limit 1000')
>class(d)
>m <- rhive.block.sample(data_sku, percent =0.0001, seed =0)
>rhive.close()

一般在系统中已经配置了host,因此可以直接rhive.connect()进行连接,记得最后要有rhive.close()操作。 通过HIVE查询语句,将HIVE中的目标数据加载至R环境下,返回的 d 是一个dataframe。

实际上,rhive.query的实际用途有很多,一般HIVE操作都可以使用,比如变更scheme等操作:

>rhive.query('use scheme1')
>rhive.query('show tables')
>rhive.query('drop table emp')

但需要注意的是,数据量较大的情况需要使用rhive.big.query,并设置memlimit参数。

将R中的对象通过构建表的方式存储到HIVE中需要使用:

rhive.write.table(dat, tablename ='usertable', sep =',')

而后使用join等HIVE语句获得相关建模数据。其实写到这儿,有需求的看官就应该明白了,这几项 RHive 的功能就足够 折腾些有趣的事情了。

可能出现的问题:

Exception in thread "main" java.sql.SQLException: Could not open client transport with JDBC Uri: jdbc:hive2://192.168.206.128:10000/default: java.net.ConnectException: Connection refused: connect

解决方法:

1. 检查hive server2是否启动:

netstat -anp | grep 10000

2. 检查conf/hive-site.xml 下的配置是否正确:

    <configuration>
<property>
<name>hive.server2.thrift.port</name>
<value>10000</value>
</property>
<property>
<name>hive.server2.thrift.bind.host</name>
<value>192.168.206.128</value>
</property>
</configuration>

CentOS6.5安装RHive的更多相关文章

  1. vmware Centos6.6安装64位

    Centos6.6安装64位 必须开启BIOS中的虚拟化技术 首先开机进入BIOS,一般机器是按F2,我的T420是按F1,然后进入Security,Virtualization,选择Enable即可 ...

  2. Gitlab完美安装【CentOS6.5安装gitlab-6.9.2】

    摘要: 拆腾了几天,终于在今天找到了快速安装Gitlab的方法.CentOS6.5安装gitlab-6.9.2 参考网址:https://gitlab.com/gitlab-org/omnibus-g ...

  3. CentOS6.5安装Tomcat

    安装说明 安装环境:CentOS-6.4 安装方式:源码安装 软件:apache-tomcat-7.0.56.tar.gz 下载地址:http://tomcat.apache.org/download ...

  4. Centos6 yum安装openldap+phpldapadmin+TLS+双主配置

    原文地址:http://54im.com/openldap/centos-6-yum-install-openldap-phpldapadmin-tls-%E5%8F%8C%E4%B8%BB%E9%8 ...

  5. centos6.5安装oracle11g_2

    centos7安装oracle数据库不成功,换成centos6.5安装,可以安装成功,记录一下 安装系统时,主机名如果不是用localhost,安装成功后,要用主机名和ip做映射,修改/etc/hos ...

  6. CentOS6.6安装vmware workstation报错

    本人系统用的是centos6.6,安装了vmware workstation,启动后一直如下图报错,相关内核已经安装了的,哪位前辈如果解决过这样的问题,麻烦指点指点,小弟在此先谢过了.

  7. CentOS6.6安装virtualbox4.1.44

    本人用的是centos6.6,安装了virtualbox 4.1.44,启动后一直如上图报错,哪位前辈如果解决过这样的问题,麻烦指点指点,小弟在此先谢过了.

  8. [转]CentOS-6.3安装配置cmake

    CentOS-6.3安装配置cmake   zhoulf 2013-02-03 原创 安装说明 安装环境:CentOS-6.3安装方式:源码编译安装 软件:cmake-2.8.10.2.tar.gz下 ...

  9. 实战CENTOS6.5安装docker并创建asp.net mvc 5 镜像,运行MVC 网站

    Docker,容器,让研发.测试.生产同一环境,可在linux平台上混合使用JAVA与net 程序 Centos6.5安装docker 参考http://my.oschina.net/kcw/blog ...

随机推荐

  1. Ubuntu上pip安装uwsgi失败的原因之一(未联网)

    ubuntu@ubuntu:~$ sudo pip install uwsgi 报错:The directory '/home/ubuntu/.cache/pip/http' or its paren ...

  2. [No0000C7]windows 10桌面切换快捷键,win10

    windows 10桌面切换快捷键:Ctrl+Win+←/→ 切换窗口:Alt+Tab(不是新的,但任务切换界面改进)任务视图:Win+Tab(松开键盘界面不会消失)创建新的虚拟桌面:Win+Ctrl ...

  3. tfidf_CountVectorizer 与 TfidfTransformer 保存和测试

    做nlp的时候,如果用到tf-idf,sklearn中用CountVectorizer与TfidfTransformer两个类,下面对和两个类进行讲解 一.训练以及测试 CountVectorizer ...

  4. Java代理和动态代理机制分析和应用

    本博文中项目代码已开源下载地址:GitHub Java代理和动态代理机制分析和应用 概述 代理是一种常用的设计模式,其目的就是为其他对象提供一个代理以控制对某个对象的访问.代理类负责为委托类预处理消息 ...

  5. [development][dpdk][pktgen] 网卡收发包性能测试-详细数据

    三层包测试 发包方式:192.168.20.205 发包工具:pktgen 发包网卡:i350 收包设备:1922.168.20.185 CPU:Intel(R) Xeon(R) CPU E5-262 ...

  6. 使用反向代理的http的请求流程

    此文章主要为刚接触反向代理的小伙伴梳理请求流程,以便更好的理解反向代理是何时工作的 流程 由于浏览器是有缓存的,所以本地的hosts文件的信息也会在浏览器端缓存 当客户端发起一个新的请求(例如:输入的 ...

  7. java JDBC (七) org.apache.commons.dbutils 查询

    package cn.sasa.demo1; import java.sql.Connection; import java.sql.SQLException; import java.util.Li ...

  8. 洛谷P3242 接水果 [HNOI2015] 整体二分

    正解:整体二分+树状数组 解题报告: 传送门! 题目还是大概解释下?虽然其实是看得懂的来着,,, 大概就是说给一棵树.给定一些询问,每个询问都是说在两个点之间的路径上的子路径的第k大是什么 然后看到这 ...

  9. 【Python全栈-JavaScript】JavaScript入门

    JavaScript基础知识点 一.JavaScript概述 参考:http://www.w3school.com.cn/b.asp JavaScript的历史 1.1992年Nombas开发出C-m ...

  10. module_init 内核调用过程

    内核版本:linux_2.6.22.6 入口源文件: init.h