R语言读取Hive数据表

R通过RJDBC包连接Hive

目前Hive集群是可以通过跳板机来访问 HiveServer，将Hive 中的批量数据读入R环境，并进行后续的模型和算法运算。

1. 登录跳板机后需要首先在Linux下进行配置

从root权限切换到bzsys用户，才能够通过验证读取Hive。首先需要配置Hadoop的临时环境变量CLASSPATH路径

su bzsys

export CLASSPATH=$CLASSPATH:/etc/hadoop/conf

2. 下载并安装RJDBC包

Linux下直接运行R的install 函数通常不成功，建议下载预编译的包通过命令行安装，如下载文件 RJDBC_0.2-6.tar.gz (http://www.rforge.net/RJDBC/)

切换到下载包所在的文件夹下，如 /etc/usr/R-patched/packages (替换为自己的目录)，在终端运行R的命令行，完成安装。

R CMD INSTALL RJDBC_0.2-6.tar.gz

3. 进入R环境

library(RJDBC) # 载入RJDBC包

# 设置R连接时类的路径 CLASSPATH，注意一定要引hive/hadoop这三个路径下的所有包才可以通过认证

cp = c(list.files("/usr/lib/hive/lib", pattern = "[.]jar", full.names=TRUE, recursive=TRUE),

list.files("/usr/lib/hadoop", pattern = "[.]jar", full.names=TRUE, recursive=TRUE),

list.files("/etc/hadoop/conf", full.names=TRUE, recursive=TRUE),

recursive=TRUE

)

# 新建RJDBC的 Driver

drv <- JDBC(driverClass = "org.apache.hive.jdbc.HiveDriver", classPath = cp)

# 建立连接Connection

# 常见错误: 注意路径是jdbc:hive2:而不是jdbc:hive:, 因为新版Hive启用了 HiveServer2，替代了之前的HiveServer变量

# "hadoop-jy-backupserver:10000" 为济阳集群的URL和默认端口PORT 10000, "principal=" 为需要的特殊认证Authentication

hiveconnection <- dbConnect(drv,"jdbc:hive2://hadoop-jy-backupserver:10000/default;principal=hive/hadoop-jy-backupserver@HADOOP.QIYI.COM",user="*******", password="*******") # *** 替换为相应用户名和密码

4. R操作 Hive数据表范例

library(RJDBC)

cp = c(list.files("/usr/lib/hive/lib", pattern = "[.]jar", full.names=TRUE, recursive=TRUE),

list.files("/usr/lib/hadoop", pattern = "[.]jar", full.names=TRUE, recursive=TRUE),

list.files("/etc/hadoop/conf", full.names=TRUE, recursive=TRUE),

recursive=TRUE

)

drv = JDBC(driverClass = "org.apache.hive.jdbc.HiveDriver", classPath = cp)

hiveconnection = dbConnect(drv,"jdbc:hive2://hadoop-jy-backupserver:10000/default;principal=hive/hadoop-jy-backupserver@HADOOP.QIYI.COM",user="*******", password="*******") # *** 替换为相应用户名密码

# 从BAIDU_INDEX 表中查询记录的个数，存入DataFrame

count = dbGetQuery(hiveconnection,"SELECT count(*) FROM cpr.baidu_index") # 开始执行MapReduce任务

# 非查询Query的语句,如创建表CREATE, dbSendUpdate 函数执行所有非查询Query的语句

sqlCreateTbl = "CREATE TABLE IF NOT EXISTS cpr.person_correlation_graph_temp(rownames STRING,ibao_person_id_x STRING, ibao_person_id_y STRING,

cor_index DOUBLE,start_date STRING,end_date STRING)"

result=dbSendUpdate(hiveconnection,sqlCreateTbl)

# 将数据写入Hive数据库

dfToLoad = data.frame(rownames=c('1','2'),ibao_person_id_x=c('盗墓笔记','盗墓笔记'),

ibao_person_id_y=c('李易峰','杨洋'),cor_index=c(0.8900,0.5100))

dbWriteTable(hiveconnection, "cpr.person_correlation_graph", dfToLoad, overwrite=TRUE)

# R中执行其他Hive SQL的函数

dbListTables(hiveconnection, "%qiyu%")

df = dbReadTable(hiveConn, "iris")

R语言读取Hive数据表的更多相关文章

R语言读取MySQL数据表
1.R中安装RODBC包 install.packages("RODBC") 2.在Windows系统下安装MySQL的ODBC驱动注意区分32位和64位版本: http://d ...
R语言读取JSON数据
R语言读取XML数据
R语言分析朝阳医院数据
R语言分析朝阳医院数据本次实践通过分析朝阳医院2016年销售数据,得出“月均消费次数”.“月均消费金额”.“客单价”.“消费趋势”等结果,并据此作出可视化图形. 一.读取数据: library(op ...
[译]用R语言做挖掘数据《二》
数据探索一.实验说明 1. 环境登录无需密码自动登录,系统用户名shiyanlou,密码shiyanlou 2. 环境介绍本实验环境采用带桌面的Ubuntu Linux环境,实验中会用到程序: ...
R语言实现金融数据的时间序列分析及建模
R语言实现金融数据的时间序列分析及建模一移动平均移动平均能消除数据中的季节变动和不规则变动.若序列中存在周期变动,则通常以周期为移动平均项数.移动平均法可以通过数据显示出数据长期趋势的变动 ...
R语言处理Web数据
R语言处理Web数据许多网站提供的数据,以供其用户的消费.例如,世界卫生组织(WHO)提供的CSV,TXT和XML文件的形式的健康和医疗信息报告.基于R程序,我们可以通过编程提取这些网站的具体数据. ...
读取hive的表结构，生成带comment的视图建表语句
### 读取hive的表结构,生成带comment的视图建表语句 # 读取配置文件中的表并进行遍历 grep -v '^#' tablesFile|while read tableName do st ...
R语言读取文件
1.R语言读取文件,文件类型为.txt 直接使用read.table()即可,若不知道当前的工作目录,可以使用函数getwd()来查看 2.R语言读取文件,文件类型为.xlsx 方法一:可以把excl ...

随机推荐

js基础-基本包装类型
var t = 13; t.toString(); //t是一个简单数值类型现在有了方法 toString 对象类型的方法 //数值类型有对应的包装类型 var t1 =new Number(333 ...
“2017面向对象程序设计（Java）第十三周学习总结”存在问题的反馈及本周教学安排
“2017面向对象程序设计(Java)第十三周学习总结”存在问题的反馈及本周教学安排1. 图形界面事件处理技术是Java GUI编程核心技术,要求同学们掌握其基本原理和基本编程模型:2. 本周四理论课 ...
python对ftp进行操作
背景:需要对ftp进行操作,涉及上传和下载操作 from ftplib import FTP ftp = FTP(host=“ftp的hostname",user=‘登录用户名', pa ...
Local Storage
HTML代码: <ul id="edit" contenteditable="true"> <li>修改我吧,然后刷新页面看看,^_^& ...
awk——getline
A．getline从整体上来说,应这么理解它的用法: 当其左右无重定向符 | 或 < 时,getline作用于当前文件,读入当前文件的第一行给其后跟的变量var 或$0(无变量):应该注意到,由 ...
eclipse中没有tomcat小猫
安装了tomcat,按网上的说明也使用了tomcatPluginV331 配置文件,还是没有小猫,后来我发现,网上的tomcatPluginV331 针对eclipse 4.4版本,所以应该是插件的版 ...
Vue.Draggable：基于 Sortable.js 的 Vue 拖拽组件使用中遇到的问题
Sortable.js 介绍 https://segmentfault.com/a/1190000008209715 项目中遇到的问题: A - 我需要在项目的拖拽组件中,使用背景 1 - 想到的第一 ...
numpy.random.uniform（）
numpy.random.uniform均匀分布 2018年06月19日 23:28:03 徐小妹阅读数:4238 numpy.random.uniform介绍: 1. 函数原型: numpy ...
58. Length of Last Word (String)
Given a string s consists of upper/lower-case alphabets and empty space characters ' ', return the l ...
Python+Selenium学习--前进和后退
场景这两个功能一般不太常用.所能想到的场景大概也就是在几个页面间来回跳转,省去每次都get url. 代码 #!/usr/bin/env python # -*- coding:utf-8 -*- ...

R语言读取Hive数据表

R语言读取Hive数据表的更多相关文章

随机推荐

热门专题