greenplum导数据

Greenplum and Hadoop HDFS integration

Step 1: Install Java on greenplum

Step 2: Set JAVA and HADOOP home for gpadmin

export JAVA_HOME=/usr/java/jdk1.6.0_26

export HADOOP_HOME=/home/hadoop

Step 3: Modify postgresql.conf file

/data/disk1/gp/master/gpseg-1/postgresql.conf

gp_external_enable_exec=on

gp_external_grant_privileges=on

gp_hadoop_target_version = hadoop2

gp_hadoop_home = '/opt/17173/hadoop'

Step 4: Restart Greenplum database

gpstop -a;gpstart -a

或者

gpconfig -c gp_hadoop_target_version -v "'hadoop2'"

gpconfig -c gp_hadoop_home -v "'/opt/17173/hadoop'"

Step 5: Copy test file to hdfs

tmp/test-data.txt

nc|Wednesday, October 10, 2012 03:45:36 UTC|39.5662|-123.3917|1.8|8.9|9|Northern California

hv|Wednesday, October 10, 2012 03:32:29 UTC|19.4028|-155.2697|2.9|1.9|24|Island of Hawaii, Hawaii

hv|Wednesday, October 10, 2012 03:24:59 UTC|19.4048|-155.2673|2.6|2.1|17|Island of Hawaii, Hawaii

nn|Wednesday, October 10, 2012 03:21:16 UTC|36.7553|-115.5388|1.2|7|20|Nevada

nn|Wednesday, October 10, 2012 03:09:13 UTC|38.583|-119.4507|1.3|7|7|Central California

uw|Wednesday, October 10, 2012 03:07:14 UTC|47.7083|-122.325|2|29.7|36|Seattle-Tacoma urban area, Washington

ci|Wednesday, October 10, 2012 02:52:38 UTC|32.8157|-116.1407|1.3|7.4|22|Southern California

ci|Wednesday, October 10, 2012 02:46:21 UTC|33.932|-116.8478|1.8|7.6|87|Southern California

hv|Wednesday, October 10, 2012 02:17:29 UTC|19.4042|-155.2688|1.9|1.7|17|Island of Hawaii, Hawaii

hadoop fs -copyFromLocal /tmp/test-data.txt /tmp

6.为HDFS protocol赋权限

为了能够创建外部表访问HDFS文件，使用创建外部表的用执行如下操作

GRANT INSERT ON PROTOCOL gphdfs TO user01

GRANT SELECT ON PROTOCOL gphdfs TO user01;

GRANT ALL ON PROTOCOL gphdfs TO user01;

7.创建外部表

CREATE EXTERNAL TABLE earthquake_raw_ext(

source text,

period text,

latitude double precision,

longitude double precision,

magnitude double precision,

depth double precision,

NST double precision,

region text

)

LOCATION ( 'gphdfs://sea2:8020/tmp/test-data.txt')

FORMAT 'text' (delimiter '|')

ENCODING 'UTF8';

\d tb01 使用\d +表名查看当前表结构

GP中create table as的语法(http://media.gpadmin.me/wp-content/uploads/2012/11/GPDB_AdminGuide_4_2.pdf page:439)

CREATE [[GLOBAL | LOCAL] {TEMPORARY | TEMP}] TABLE table_name(

[ { column_name data_type[ DEFAULT default_expr]

[column_constraint[ ... ]

[ ENCODING ( storage_directive[,...] ) ]

]

| table_constraint

| LIKE other_table[{INCLUDING | EXCLUDING}

{DEFAULTS | CONSTRAINTS}] ...}

[, ... ] ]

)

[ INHERITS ( parent_table[, ... ] ) ]

[ WITH ( storage_parameter=value[, ... ] )

[ ON COMMIT {PRESERVE ROWS | DELETE ROWS | DROP} ]

[ TABLESPACE tablespace]

[ DISTRIBUTED BY (column, [ ... ] ) | DISTRIBUTED RANDOMLY ]

[ PARTITION BY partition_type(column)

[ SUBPARTITION BY partition_type(column) ]

[ SUBPARTITION TEMPLATE ( template_spec ) ]

[...]

( partition_spec)

| [ SUBPARTITION BY partition_type(column) ]

[...]

( partition_spec

[ ( subpartition_spec

[(...)]

) ]

)

where storage_parameter is:

APPENDONLY={TRUE|FALSE}

BLOCKSIZE={8192-2097152}

ORIENTATION={COLUMN|ROW}

COMPRESSTYPE={ZLIB|QUICKLZ|RLE_TYPE|NONE}

COMPRESSLEVEL={0-9}

FILLFACTOR={10-100}

OIDS[=TRUE|FALSE]

where column_constraint is:

[CONSTRAINT constraint_name]

NOT NULL | NULL

| UNIQUE [USING INDEX TABLESPACE tablespace]

[WITH ( FILLFACTOR = value )]

| PRIMARY KEY [USING INDEX TABLESPACE tablespace]

[WITH ( FILLFACTOR = value )]

| CHECK ( expression )

and table_constraint is:

[CONSTRAINT constraint_name]

UNIQUE ( column_name [, ... ] )

[USING INDEX TABLESPACE tablespace]

[WITH ( FILLFACTOR=value )]

| PRIMARY KEY ( column_name [, ... ] )

[USING INDEX TABLESPACE tablespace]

[WITH ( FILLFACTOR=value )]

| CHECK ( expression )

where partition_type is:

LIST

| RANGE

where partition_specification is:

partition_element [, ...]

and partition_element is:

DEFAULT PARTITION name

| [PARTITION name] VALUES (list_value [,...] )

| [PARTITION name]

START ([datatype] 'start_value') [INCLUSIVE | EXCLUSIVE]

[ END ([datatype] 'end_value') [INCLUSIVE | EXCLUSIVE] ]

[ EVERY ([datatype] [number | INTERVAL] 'interval_value') ]

| [PARTITION name]

END ([datatype] 'end_value') [INCLUSIVE | EXCLUSIVE]

[ EVERY ([datatype] [number | INTERVAL] 'interval_value') ]

[ WITH ( partition_storage_parameter=value [, ... ] ) ]

[column_reference_storage_directive [, …] ]

[ TABLESPACE tablespace ]

where subpartition_spec or template_spec is:

subpartition_element [, ...]

and subpartition_element is:

DEFAULT SUBPARTITION name

| [SUBPARTITION name] VALUES (list_value [,...] )

| [SUBPARTITION name]

START ([datatype] 'start_value') [INCLUSIVE | EXCLUSIVE]

[ END ([datatype] 'end_value') [INCLUSIVE | EXCLUSIVE] ]

[ EVERY ([datatype] [number | INTERVAL] 'interval_value') ]

| [SUBPARTITION name]

END ([datatype] 'end_value') [INCLUSIVE | EXCLUSIVE]

[ EVERY ([datatype] [number | INTERVAL] 'interval_value') ]

[ WITH ( partition_storage_parameter=value [, ... ] ) ]

[column_reference_storage_directive [, …] ]

[ TABLESPACE tablespace ]

where storage_parameter is:

APPENDONLY={TRUE|FALSE}

BLOCKSIZE={8192-2097152}

ORIENTATION={COLUMN|ROW}

COMPRESSTYPE={ZLIB|QUICKLZ|RLE_TYPE|NONE}

COMPRESSLEVEL={0-9}

FILLFACTOR={10-100}

OIDS[=TRUE|FALSE]

where storage_directive is:

COMPRESSTYPE={ZLIB | QUICKLZ | RLE_TYPE | NONE}

| COMPRESSLEVEL={0-9}

| BLOCKSIZE={8192-2097152}

Where column_reference_storage_directive is:

COLUMN column_name ENCODING (storage_directive [, ... ] ), ...

DEFAULT COLUMN ENCODING (storage_directive [, ... ] )

创建事实表，导入数据

create table test (id, name)

with (APPENDONLY=true,BLOCKSIZE=8192,ORIENTATION=column,COMPRESSTYPE=QUICKLZ) as select * from external_test

distributed by (id);

查看数据和在segment上面分布

select gp_segment_id,count(1) from test group by 1;

CREATE EXTERNAL TABLE faq_logs_ext(

logtime bigint,

appid text,

gamecode text,

page text,

sessionid text,

userid text,

query text,

questionid int,

questionorder text,

staytime int,

iswant boolean

)LOCATION ('gphdfs://sea2:8020/faq/faq_logs/20160101') FORMAT 'TEXT' (DELIMITER '\u0001') LOG ERRORS INTO err_metrics SEGMENT REJECT :100 ROWS;

create table faq_logs as select * from faq_logs_ext；

greenplum导数据的更多相关文章

通过Sql语句导数据
在通过SQL Server向导中的SQL语句导数据时,默认情况下源表中的nvarchar字段类型会变成202,解决此问题的方法是,要重新选择一下对应的数据接收表.
SQLServer导数据到Oracle
从SQLServer导数据到Oracle大概有以下几种方法: 使用SSMS的导出数据向导,使用Microsoft ODBC for Oracle或Oracle Provider for OLE DB连 ...
使用pyspark模仿sqoop从oracle导数据到hive的主要功能（自动建表，分区导入，增量，解决数据换行符问题）
最近公司开始做大数据项目,让我使用sqoop(1.6.4版本)导数据进行数据分析计算,然而当我们将所有的工作流都放到azkaban上时整个流程跑完需要花费13分钟,而其中导数据(增量)就占了4分钟左右 ...
异构数据库之间完全可以用SQL语句导数据
告诉你一个最快的方法,用SQLServer连接DBF 在SQLServer中执行 SELECT * into bmk FROM OpenDataSource( ‘Microsoft.Jet.OLEDB ...
GreenPlum 大数据平台--外部表(三)
一,外部表介绍 Greenplum 在数据加载上有一个明显的优势,就是支持数据的并发加载,gpfdisk是并发加载的工具,数据库中对应的就是外部表所谓外部表,就是在数据库中只有表定义.没有数据,数据 ...
GreenPlum 大数据平台--监控
数据库状态监控活动活动过程纠正措施列出当前状态为down的Segment.如果有任何行被返回,就会生成一个警告或者告警. 推荐频率:每5到10分钟重要度: IMPORTANT 在postgr ...
sqoop从mysql导数据到hive报错：Caused by: com.mysql.jdbc.exceptions.jdbc4.CommunicationsException: Communications link failure
背景使用sqoop从mysql导数据到hive,从本地服务器是可以访问mysql的(本地服务器是hadoop集群的一个datanode),但是sqoop导数据的时候依然连接不上mysql 报错如下: ...
SQL Server 导数据 Oracle
1. 使用Sql Server的企业管理器导入(推荐) 优点: 可以指定导入的表. 缺点: 转成Oracle时, 对应的数据类型要一个一个手动修改 2.使用ORACLE官方提供的Sql Devel ...
Solr4.7从数据库导数据
实际工程应用中,从数据库导出数据创建索引再常见不过了,现在实验一下从数据库导入数据创建索引. 一.版本说明 Solr版本:4.7.0 数据库:sqlserver2005 二.配置步骤 1. 准备的j ...

随机推荐

python 获得毫秒级时间戳
import time import datetime t = time.time() print (t) #原始时间数据 print (int(t)) #秒级时间戳 print (int(round ...
LeetCode153.寻找旋转排序数组中的最小值
153.寻找旋转排序数组中的最小值描述假设按照升序排序的数组在预先未知的某个点上进行了旋转. ( 例如,数组 [0,1,2,4,5,6,7] 可能变为 [4,5,6,7,0,1,2] ). 请找出 ...
IIS环境下上传文件失败
跟随学习代码练习 php 上传文件,一开始是点击按钮后没有反应,不知道是否成功,使用 var_dump($_FILES) 查看,发现空空如也.遂百度一下,发现基本代码应如下 <form acti ...
[水题AC乐] - 贪心
HDU - 1009 https://paste.ubuntu.com/p/rgSYpSKkwW/ POJ - 1017 麻烦的模拟贪心题意就是用尽量少的66h箱子装nnh的物品,贪心策略很明显, ...
vm中centos7磁盘扩容
在VM虚拟平台管理客户端,将虚拟机关机后,将分配的磁盘大小30G扩至300G.如图. 调整完后,重新打开虚拟机,使用fdisk -l查看,可以看到我们刚刚扩容的空间已经可以看到,但没有分区,还 ...
软件测试作业——WordCount的测试
一.代码提交 1.代码地址:https://gitee.com/zst1978805482/WordCount 2.作业地址:https://edu.cnblogs.com/campus/xnsy/T ...
Linux——文件和文件夹的操作
Linux有三种文件: 普通文件(包括文本文件.源码文件.可执行文件等等) 设备文件(或者成为特殊文件,linux通过设备文件与外部设备进行通讯,例如:光驱.打印机.终端.modern) 设备文件有两 ...
centos7.3下安装redis3.2 yum安装
1.进入centos 2.运行:yum install redis 3.安装完成后,选择y,确认 4.进入:cd /etc/;vi redis.conf 将,daemonize 修改为yes,并且添加 ...
mysql记录数据库中重复的字段的数据
SELECT SUM(co)FROM ( SELECT telephone, count(telephone) AS co ...
抽象工厂方法模式（Abstract Factory Pattern）
Provide an interface for creating families of related or dependent objects without specifying their ...

greenplum导数据

greenplum导数据的更多相关文章

随机推荐

热门专题