CDH5.4.5运行Phoenix导入CSV文件
1.安装phoenix
在界面上设置Phoenix的parcel包:
http://52.11.56.155:7180/cmf/settings?groupKey=config.scm.parcel.display_group&groupParent=
添加一个Remote Parcel Repository URLs url:http://archive.cloudera.com/cloudera-labs/phoenix/parcels/1.0/
CM会自动发现新的parcel,然后点击Download,Distribute and Active。重启集群
2.进入到某台服务器上,查看phoenix的安装路径
[root@ip---- ~]# cd /opt/cloudera/parcels/CLABS_PHOENIX
[root@ip---- phoenix]# ls
bin dev examples lib phoenix-4.3.-clabs-phoenix-1.0.-client.jar phoenix-4.3.-clabs-phoenix-1.0.-server.jar phoenix-4.3.-clabs-phoenix-1.0.-server-without-antlr.jar
bin目录下为可执行文件,examples目录下为一些样例
3.导入CSV格式的表
CSV文件为/root/ceb/cis_cust_imp_info.csv,内容如下:
,,BR01,2000.01
,,BR01,2000.02
,,BR02,2000.03
定义一个表结构的文件/root/ceb/cis_cust_imp_info.sql,内容如下,
CREATE TABLE IF NOT EXISTS cis_cust_imp_info(
statistics_dt varchar(50),
cust_id varchar(50),
open_org_id varchar(50),
assert9_bal decimal(18,2),
CONSTRAINT pk PRIMARY KEY (statistics_dt, cust_id)
);
注意最后的分号是必须的。
运行命令,导入CSV
[root@ip---- phoenix]# bin/psql.py 172.31.25.244 /root/ceb/cis_cust_imp_info.sql /root/ceb/cis_cust_imp_info.csv
SLF4J: Failed to load class "org.slf4j.impl.StaticLoggerBinder".
SLF4J: Defaulting to no-operation (NOP) logger implementation
SLF4J: See http://www.slf4j.org/codes.html#StaticLoggerBinder for further details.
// :: WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable
// :: WARN impl.MetricsConfig: Cannot locate configuration: tried hadoop-metrics2-phoenix.properties,hadoop-metrics2.properties
no rows upserted
Time: 0.259 sec(s) csv columns from database.
CSV Upsert complete. rows upserted
Time: 0.067 sec(s)
在hbase shell中进行验证:
hbase(main)::> list
TABLE
CIS_CUST_IMP_INFO
SYSTEM.CATALOG
SYSTEM.SEQUENCE
SYSTEM.STATS
row(s) in 0.2650 seconds => ["CIS_CUST_IMP_INFO", "SYSTEM.CATALOG", "SYSTEM.SEQUENCE", "SYSTEM.STATS"]
hbase(main)::> scan 'CIS_CUST_IMP_INFO'
ROW COLUMN+CELL
\x00100010001001 column=:ASSERT9_BAL, timestamp=, value=\xC2\x15\x01\x02
\x00100010001001 column=:OPEN_ORG_ID, timestamp=, value=BR01
\x00100010001001 column=:_0, timestamp=, value=
\x00100010001002 column=:ASSERT9_BAL, timestamp=, value=\xC2\x15\x01\x03
\x00100010001002 column=:OPEN_ORG_ID, timestamp=, value=BR01
\x00100010001002 column=:_0, timestamp=, value=
\x00100010001003 column=:ASSERT9_BAL, timestamp=, value=\xC2\x15\x01\x04
\x00100010001003 column=:OPEN_ORG_ID, timestamp=, value=BR02
\x00100010001003 column=:_0, timestamp=, value=
row(s) in 0.1840 seconds
4.以MR的方式导入大量CSV文件
[root@ip---- phoenix]# hadoop jar phoenix-4.3.-clabs-phoenix-1.0.-client.jar org.apache.phoenix.mapreduce.CsvBulkLoadTool --table cis_cust_imp_info --input /root/ceb/cis_cust_imp_info.csv --zookeeper 172.31.25.244
发生错误:
java.util.concurrent.ExecutionException: java.lang.IllegalAccessError: class com.google.protobuf.HBaseZeroCopyByteString cannot access its superclass com.google.protobuf.LiteralByteString
at java.util.concurrent.FutureTask.report(FutureTask.java:)
at java.util.concurrent.FutureTask.get(FutureTask.java:)
at org.apache.hadoop.hbase.client.HTable.coprocessorService(HTable.java:)
at org.apache.hadoop.hbase.client.HTable.coprocessorService(HTable.java:)
at org.apache.phoenix.query.ConnectionQueryServicesImpl.metaDataCoprocessorExec(ConnectionQueryServicesImpl.java:)
at org.apache.phoenix.query.ConnectionQueryServicesImpl.getTable(ConnectionQueryServicesImpl.java:)
at org.apache.phoenix.schema.MetaDataClient.updateCache(MetaDataClient.java:)
at org.apache.phoenix.schema.MetaDataClient.updateCache(MetaDataClient.java:)
at org.apache.phoenix.schema.MetaDataClient.getCurrentTime(MetaDataClient.java:)
at org.apache.phoenix.compile.StatementContext.getCurrentTime(StatementContext.java:)
at org.apache.phoenix.execute.BaseQueryPlan.iterator(BaseQueryPlan.java:)
at org.apache.phoenix.execute.BaseQueryPlan.iterator(BaseQueryPlan.java:)
at org.apache.phoenix.jdbc.PhoenixStatement$.call(PhoenixStatement.java:)
at org.apache.phoenix.jdbc.PhoenixStatement$.call(PhoenixStatement.java:)
at org.apache.phoenix.call.CallRunner.run(CallRunner.java:)
at org.apache.phoenix.jdbc.PhoenixStatement.executeQuery(PhoenixStatement.java:)
at org.apache.phoenix.jdbc.PhoenixStatement.executeQuery(PhoenixStatement.java:)
at org.apache.phoenix.jdbc.PhoenixDatabaseMetaData.getColumns(PhoenixDatabaseMetaData.java:)
at org.apache.phoenix.util.CSVCommonsLoader.generateColumnInfo(CSVCommonsLoader.java:)
at org.apache.phoenix.mapreduce.CsvBulkLoadTool.buildImportColumns(CsvBulkLoadTool.java:)
at org.apache.phoenix.mapreduce.CsvBulkLoadTool.loadData(CsvBulkLoadTool.java:)
at org.apache.phoenix.mapreduce.CsvBulkLoadTool.run(CsvBulkLoadTool.java:)
at org.apache.hadoop.util.ToolRunner.run(ToolRunner.java:)
at org.apache.hadoop.util.ToolRunner.run(ToolRunner.java:)
at org.apache.phoenix.mapreduce.CsvBulkLoadTool.main(CsvBulkLoadTool.java:)
at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method)
at sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:)
at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:)
at java.lang.reflect.Method.invoke(Method.java:)
at org.apache.hadoop.util.RunJar.run(RunJar.java:)
at org.apache.hadoop.util.RunJar.main(RunJar.java:)
Caused by: java.lang.IllegalAccessError: class com.google.protobuf.HBaseZeroCopyByteString cannot access its superclass com.google.protobuf.LiteralByteString
网上搜索,发现是由于HBASE的一个bug,解决方法是:
[root@ip---- phoenix]# cd /opt/cloudera/parcels/CDH/lib/hadoop
ln -s /opt/cloudera/parcels/CDH-5.4.-.cdh5.4.5.p0./lib/hbase/lib/hbase-protocol-1.0.-cdh5.4.5.jar hbase-protocol-1.0.-cdh5.4.5.jar
重新运行导入命令,发现如下错误:
// :: WARN security.UserGroupInformation: PriviledgedActionException as:root (auth:SIMPLE) cause:org.apache.hadoop.security.AccessControlException: Permission denied: user=root, access=WRITE, inode="/user":hdfs:supergroup:drwxr-xr-x
at org.apache.hadoop.hdfs.server.namenode.DefaultAuthorizationProvider.checkFsPermission(DefaultAuthorizationProvider.java:)
at org.apache.hadoop.hdfs.server.namenode.DefaultAuthorizationProvider.check(DefaultAuthorizationProvider.java:)
原因是/user目录权限问题,用hdfs用户重新跑一遍,发生错误。用chmod 修改/user为777
sudo -u hdfs hdfs dfs -chmod /user
sudo -u hdfs hadoop jar phoenix-4.3.-clabs-phoenix-1.0.-client.jar org.apache.phoenix.mapreduce.CsvBulkLoadTool --table cis_cust_imp_info --input /root/ceb/cis_cust_imp_info.csv --zookeeper 172.31.25.244
15/09/04 11:06:05 ERROR mapreduce.CsvBulkLoadTool: Import job on table=CIS_CUST_IMP_INFO failed due to exception:org.apache.hadoop.mapreduce.lib.input.InvalidInputException: Input path does not exist: hdfs://ip-172-31-25-243.us-west-2.compute.internal:8020/root/ceb/cis_cust_imp_info.csv
15/09/04 11:06:05 INFO client.ConnectionManager$HConnectionImplementation: Closing zookeeper sessionid=0x14f97b7df1400a4
原来用MR模式跑,文件需要放到HDFS上
这时MR运行可以顺利完成,HFile顺利生产,但是在loadIncremental环境卡住了。原因在于load到hbase中的表属于hbase:hbase,但生产的HFile文件属于当前用户和组。所以以hbase用户运行
sudo -u hbase hadoop jar phoenix-4.3.-clabs-phoenix-1.0.-client.jar org.apache.phoenix.mapreduce.CsvBulkLoadTool --table cis_cust_imp_info --input /root/ceb/cis_cust_imp_info.csv --zookeeper 172.31.25.244
顺利搞定!
CDH5.4.5运行Phoenix导入CSV文件的更多相关文章
- Postman系列四:Postman接口请求设置环境变量和全局变量、测试沙箱和测试断言、测试集运行与导入数据文件
一:Postman中接口请求设置环境变量和全局变量 全局变量和环境变量可以通过Pre-request Script和Tests设置,会在下面测试沙箱和测试断言中讲到. 全局变量的设置:官网参考http ...
- Oracle数据库导入csv文件(sqlldr命令行)
1.说明 Oracle数据库导入csv文件, 当csv文件较小时, 可以使用数据库管理工具, 比如DBevaer导入到数据库, 当csv文件很大时, 可以使用Oracle提供的sqlldr命令行工具, ...
- ACCESS导入CSV文件出现乱码解决办法
在ACCESS或Excel中导入CSV文件时常常出现乱码,这是因为简体中文版的windows操作系统及其应用软件默认都是ANSI/GBK编码,而导入的文件使用的编码与操作系统默认的编码不相符.出现这种 ...
- C# 将List中的数据导入csv文件中
//http://www.cnblogs.com/mingmingruyuedlut/archive/2013/01/20/2849906.html C# 将List中的数据导入csv文件中 将数 ...
- oracle导入csv文件
oracle导入csv文件: 1.建好对应的表和字段: 2.新建test.ctl文件,用记事本编辑写入: load data infile 'e:\TB_KC_SERV.csv' --修改对应的文件路 ...
- python导入csv文件时,出现SyntaxError
背景 np.loadtxt()用于从文本加载数据. 文本文件中的每一行必须含有相同的数据. *** loadtxt(fname, dtype=<class 'float'>, commen ...
- R: 导入 csv 文件,导出到csv文件,;绘图后导出为图片、pdf等
################################################### 问题:导入 csv 文件 如何从csv文件中导入数据,?参数怎么设置?常用参数模板是啥? 解决方 ...
- python导入csv文件出现SyntaxError问题分析
python导入csv文件出现SyntaxError问题分析 先简单描述下碰到的题目,要求是写出2个print的结果 可以看到,a指向了一个列表list对象,在Python中,这样的赋值语句,其实内部 ...
- neo4j导入csv文件
neo4j导入csv文件 关于neo4j的安装 官网和网上博客提供了n中安装的方法,这里不再赘述: 普通安装: https://cloud.tencent.com/developer/article/ ...
随机推荐
- 《与小卡特一起学Python》Code4 GUI easygui的使用
EasyGui是基于TKinter的,所以可以跨平台使用. 使用方法很简单,下载之后解压把easygui.py放到python安装目录下的lib/site-packages/下面即可 import e ...
- 淘宝网触屏版 - 学习笔记(1 - 关于meta)
注:本文是学习笔记,并不是教程,所以会有很多我不理解或猜测的问题,也会有不尽详实之处,望见谅. <meta charset="utf-8"> <meta cont ...
- 易货beta版本项目展示报告
一.团队成员和个人博客地址 PM:刘猛 开发人员:胡亚坤,董元财 测试人员:马汉虎,赖彦谕 团队名:bestRW 团队博客地址:http://www.cnblogs.com/niceRW/ 董元财:h ...
- 用FireFox火狐浏览器的3D Tilt 插件查看网页3D视图效果
逛博客发现了网页的3D视图效果,一搜原来是Firefox特有的一个功能,先看效果: 相当炫酷,接下来介绍如何实现. 1.首先安装3d tilt 插件: 从火狐浏览器的添加插件页面,搜索:3D Tilt ...
- log4jWARN Please initialize the log4j system properly解决办法
原因是没有对log4j这个jar进行文件配置. 要解决这个问题非常简单,建立LOG4J 的配置文件即可.在src 目录下创建配置文件,选择菜单File > New > File,文件名输入 ...
- Oracle Data Guard的配置
概述 Oracle Data Guard 是针对企业数据库的最有效和最全面的数据可用性.数据保护和灾难恢复解决方案.它提供管理.监视和自动化软件基础架构来创建和维护一个或多个同步备用数据库,从而保护数 ...
- Python之路 day2 字符编码及转换
#!/usr/bin/env python # -*- coding:utf-8 -*- #Author:ersa import sys print("sys default encodin ...
- Android N preview 试用
一.下载更新包 下载地址:https://developer.android.com/intl/zh-cn/preview/download.html 注意下载适合你手机的安装包哦 二.把你手机的oe ...
- swift_简单值 | 元祖 | 流程控制 | 字符串 | 集合
//: Playground - noun: a place where people can play import Cocoa var str = "Hello, playground& ...
- cocos2d-x 图片性能测试
本文是原创文章,如需转载,请注明文章出处 本次测试使用的cocos2d-x版本是3.9,测试环境是XCode7自带的iphone5 一.JPG格式与PVR.CCZ格式对比 1.占用空间对比 a)不透明 ...