使用pyspark模仿sqoop从oracle导数据到hive的主要功能（自动建表，分区导入，增量，解决数据换行符问题）

最近公司开始做大数据项目,让我使用sqoop(1.6.4版本)导数据进行数据分析计算,然而当我们将所有的工作流都放到azkaban上时整个流程跑完需要花费13分钟,而其中导数据(增量)就占了4分钟左右,老板给我提供了使用 spark 导数据的思路,学习整理了一个多星期,终于实现了sqoop的主要功能. 这里我使用的是pyspark完成的所有操作. 条件:hdfs平台,pyspark,ubuntu系统运行:我这里是在 /usr/bin 目录下(或者指定在此目录下 )运行的python文件,也可以…

【HIVE】（1）建表、导入数据、外部表、导出数据

导入数据 1). 本地 load data local inpath "/root/example/hive/data/dept.txt" into table dept; 2). HDFSload data inpath "/user/hive/warehouse/functiontest.db/dept1/dept.txt" into table dept1; 我发现使用这个命令后,hdfs上的xxx.txt文件会移动到当前表的目录下,原来表的目录下xxx.tx…

sqoop 从oracle导数据到hive中，date型数据时分秒截断问题

oracle数据库中Date类型倒入到hive中出现时分秒截断问题解决方案 1.问题描述: 用sqoop将oracle数据表倒入到hive中,oracle中Date型数据会出现时分秒截断问题,只保留了‘yyyy-MM-dd',而不是’yyyy-MM-dd HH24:mi:ss'格式的,后面的‘HH24:mi:ss’被自动截断了,在对时间要求到秒级的分析处理中这种截断会产生问题. 2.解决方案: 在用sqoop倒入数据表是,添加--map-column-hive 和--map-column-jav…

oracle问题：新建了一个PDM文件，建表后生成的sql语句中含有clustered

问题描述为了在oracle中新增表,在PDM中建表,使用其生成的sql语句,但是建表不能成功,提示 ORA-00906: 缺失左括号原因是多了clustered 关键字情景重现 1. 新建一个pdm文件 2. 建表后预览sql 是有clustered 这个关键字的 3. 建表时报错问题解决调查发现数据库的问题,右键数据库属性查看DBMS 发现是 SQL SERVER ! 解决办法就是切换DBMS: 点击确定再次查看sql语句,一切正常.问题最终解决.…

Hive管理表分区的创建，数据导入，分区的删除操作

Hive分区和传统数据库的分区的异同: 分区技术是处理大型数据集经常用到的方法.在Oracle中,分区表中的每个分区是一个独立的segment段对象,有多少个分区,就存在多少个相应的数据库对象.而在Postgresql中分区表其实相当于分别建立了很多小表,其实和Oracle是异曲同工罢了. 在HIVE中的管理表其实就是在数据库目录下的一个和表名称一样的目录,数据文件都存放在该目录下,如果在Hive中查询一张表数据,那就需要遍历该目录下的所有数据文件,如果表的数据非常庞大,那查询性能会很不好. 管…

activiti 部署在oracle多用户下不能自动建表问题的解决！

在activiti配置文件中的SpringProcessEngineConfiguration的配置项中添加<property name= "databaseSchema" value="数据库登录名" />…

Activiti+oracle 启动项目时不能自动建表或更新表的问题分析及解决办法

现象描述:按照正常配置,第一次启动时不能自动建表关键配置片段如下: <bean id="processEngineConfiguration" class="org.activiti.spring.SpringProcessEngineConfiguration"> <property name="dataSource" ref="dataSource" /> <property name=&q…

oracle自动创建表分区

创建一个table,记录哪些表需要创建表分区 create table STAT_TABLE ( tablename VARCHAR2(), pre_partition_name VARCHAR2(), tb_name VARCHAR2(), add_inteval NUMBER, owner VARCHAR2() ) tablespace USERS pctfree initrans maxtrans storage ( initial 64K next 1M minextents maxex…

Oracle Imp and Exp (导入和导出) 数据工具使用

Oracle 提供两个工具imp.exe 和exp.exe分别用于导入和导出数据.这两个工具位于Oracle_home/bin目录下. 导入数据exp 1 将数据库ATSTestDB完全导出,用户名system 密码123456 导出到c:\export.dmp中 exp system/123456@ATSTestDB file=c:\export.dmp full=y 其中ATSTestDB为数据库名称,system为该数据库里的账户,123456为其密码. 2 将数据库中system用户与s…

45.oracle表类型、数据拆分、表分区

不要做一些没有意义的事情,就比如说你要离职并不打算吃回头草,离职理由中完全没有必要说明“领导的水平太渣,人品太差”此类的原因,而是“个人原因”,当然实在不批准辞职另说. oracle表类型表的类型分为: 堆表,heap table:数据存储时,行是无序的,对它的访问采用全表扫描. 分区表表>2G 索引组织表簇表临时表压缩表嵌套表其实我们开发要关注的也就是前两种表. 我们日常开发使用的分表分库问题,其实是基于OLTP和OLAP的业务前提,然后对数据做切分,例如储值切分.水平切分.在o…

java调用sqlldr导入csv文件数据到临时表

package cn.com.file;import java.io.BufferedReader;import java.io.BufferedWriter;import java.io.File;import java.io.FileNotFoundException;import java.io.FileReader;import java.io.FileWriter;import java.io.IOException;public class Client { public s…

oracle表分区详解

原文来自:http://www.cnblogs.com/leiOOlei/archive/2012/06/08/2541306.html oracle表分区详解从以下几个方面来整理关于分区表的概念及操作: 1.表空间及分区表的概念表空间: 是一个或多个数据文件的集合,所有的数据对象都存放在指定的表空间中,但主要存放的是表, 所以称作表空间. 分区表: 当表中的数据量不断增大,查询数据的速度就会变慢,应用程序的性能就会下降,这时就应该考虑对表进行分区.表进行分区后,逻辑上表仍然是一张完整的表,…

Oracle 表分区

从以下几个方面来整理关于分区表的概念及操作: 表空间及分区表的概念表分区的具体作用表分区的优缺点表分区的几种类型及操作方法对表分区的维护性操作 1.表空间及分区表的概念表空间: 是一个或多个数据文件的集合,所有的数据对象都存放在指定的表空间中,但主要存放的是表, 所以称作表空间. 分区表: 当表中的数据量不断增大,查询数据的速度就会变慢,应用程序的性能就会下降,这时就应该考虑对表进行分区.表进行分区后,逻辑上表仍然是一张完整的表,只是将表中的数据在物理上存放到多个表空间(物理文件上),…

oracle表分区【转】

摘要:在大量业务数据处理的项目中,可以考虑使用分区表来提高应用系统的性能并方便数据管理,本文详细介绍了分区表的使用. 在大型的企业应用或企业级的数据库应用中,要处理的数据量通常可以达到几十到几百GB,有的甚至可以到TB级.虽然存储介质和数据处理技术的发展也很快,但是仍然不能满足用户的需求,为了使用户的大量的数据在读写操作和查询中速度更快,Oracle提供了对表和索引进行分区的技术,以改善大型应用系统的性能. 使用分区的优点: ·增强可用性:如果表的某个分区出现故障,表在其他分区的数据…

hdfs数据到hive中，以及hdfs数据隐身理解

hdfs数据到hive中: 假设hdfs中已存在好了数据,路径是hdfs:/localhost:9000/user/user_w/hive_g2park/user_center_enterprise_info/* 1.提前(在hive中)准备好表, user_center_enterprise_info2 ,用于接收hdfs数据. CREATE TABLE user_center_enterprise_info2 ( `id`string , `name` string ); 2.使用load…

oracle的分表详解 -----表分区

此文从以下几个方面来整理关于分区表的概念及操作: 1.表空间及分区表的概念 2.表分区的具体作用 3.表分区的优缺点 4.表分区的几种类型及操作方法 5.对表分区的维护性操作. (1.) 表空间及分区表的概念表空间: 是一个或多个数据文件的集合,所有的数据对象都存放在指定的表空间中,但主要存放的是表, 所以称作表空间. 分区表: 当表中的数据量不断增大,查询数据的速度就会变慢,应用程序的性能就会下降,这时就应该…

【转】oracle的分表详解 -----表分区

转载:https://www.cnblogs.com/congcidaishangjiamianju/p/8045804.html 一表空间及分区表的概念表空间: 是一个或多个数据文件的集合,所有的数据对象都存放在指定的表空间中,但主要存放的是表, 所以称作表空间. 分区表: 当表中的数据量不断增大,查询数据的速度就会变慢,应用程序的性能就会下降,这时就应该考虑对表进行分区.表进行分区后,逻辑上表仍然是一张完整的表,只是将表中的数据在物理上存放到多个表空间(物理文件上),这样查询数据时,…

oracle的表分区

(1.) 表空间及分区表的概念表空间: 是一个或多个数据文件的集合,所有的数据对象都存放在指定的表空间中,但主要存放的是表, 所以称作表空间. 分区表: 当表中的数据量不断增大,查询数据的速度就会变慢,应用程序的性能就会下降,这时就应该考虑对表进行分区.表进行分区后,逻辑上表仍然是一张完整的表,只是将表中的数据在物理上存放到多个表空间(物理文件上),这样查询数据时,不至于每次都扫描整张表. ( 2).表分区的具体作用 Oracle的表分区功能通过改善可管理性.性能和可用性,从而为各式应…

Oracle 存储过程动态建表

动态sql,顾名思义就是动态执行的sql,也就是说在没执行之前是动态的拼接的. 任务传入参数:新建的表名hd+当前的年和月,例如hd_201105表结构是:字段1:id ,类型是number,可以自动增加字段2:name 类型是varcha2,长度20 字段3:city 类型是varchar2,长度20 建立序列: create sequence t_id increment start nomaxvalue cache ; 建立自动建表过程: create or replace proce…

SQL Server定时自动抓取耗时SQL并归档数据脚本分享

原文:SQL Server定时自动抓取耗时SQL并归档数据脚本分享 SQL Server定时自动抓取耗时SQL并归档数据脚本分享第一步建库 USE [master] GO CREATE DATABASE [MonitorElapsedHighSQL] GO 第二步创建sp_who3存储过程 -- http://sqlserverplanet.com/dba/a-better-sp_who2-using-dmvs-sp_who3 USE [MonitorElapsedHighSQL] GO CR…

Oracle-13：Oracle中的表分区

------------吾亦无他,唯手熟尔,谦卑若愚,好学若饥------------- 本篇博客记录了表分区表分区的含义: 典型的拿空间换时间的案例! 表分区对一张表进行分区,分区之后表中的数据存在相对应的分区内(可以是不同物理存储的位置),实际上他还是一张表!!!!!!! 表分区的好处: 均衡了IO(可以放在多个不同磁盘的位置) 提升了查询性能(可以不必检索所有记录) 维护方便(假如数据出现问题,分区之后只需维护出现问题的那个分区) 增强了可用性(假如一个表分区挂掉了,其他分区可以继续使用…

一起学Hive——创建内部表、外部表、分区表和分桶表及导入数据

Hive本身并不存储数据,而是将数据存储在Hadoop的HDFS中,表名对应HDFS中的目录/文件.根据数据的不同存储方式,将Hive表分为外部表.内部表.分区表和分桶表四种数据模型.每种数据模型各有优缺点.通过create user命令创建user表时,会在HDFS中生成一个user目录/文件. 外部表数据不由Hive管理,使用drop命令删除一个表时,只是把表的元数据给删除了,而表的数据不会删除. 创建外部表的SQL语句: create external table bigdata17_u…

mysql命令行导入结构化数据

专访周金可：我们更倾向于Greenplum来解决数据倾斜的问题

周金可,就职于听云,维护MySQL和GreenPlum的正常运行,以及调研适合听云业务场景的数据库技术方案. 听云周金可 9月24日,周金可将参加在北京举办的线下活动,并做主题为<GreenPlum在听云大数据实时分析的实践>的分享.值此,他分享了PG.工作上的一些经历和经验. 免费报名链接:http://click.aliyun.com/m/6101/ 正文: 周金可刚参加工作时是做系统运维的,后来慢慢接触了各种数据库,开始对数据库感兴趣,经过一段时间的积累后转向了DBA. “在我加入听云时…

生产环境zabbix3.2上亿的表数据通过表分区的方式进行历史数据清理

生产环境zabbix3.2上亿的表数据通过表分区的方式进行历史数据清理 zabbix服务器经常报警io过载,在报警的时候发现是数据库在删除历史数据时耗时较长数据库积攒了大量的历史数据信息,主要集中在zabbix的history.history_uint.history_str.history_text.trends.trends_uint这几个表中需要进行清理,两种清理方式: .直接清空表,最省事,速度最快,缺陷是会丢失所有的监控历史数据具体清理语句如下: use zabbix; trun…

大数据学习----day27----hive02------1. 分桶表以及分桶抽样查询 2. 导出数据 3.Hive数据类型 4 逐行运算查询基本语法（group by用法，原理补充） 5.case when（练习题，多表关联）6 排序

1. 分桶表以及分桶抽样查询 1.1 分桶表对Hive(Inceptor)表分桶可以将表中记录按分桶键(某个字段对应的的值)的哈希值分散进多个文件中,这些小文件称为桶. 如要按照name属性分为3个桶,就是对name属性值的hash值对3取摸,按照取模结果对数据分桶.如取模结果为0的数据记录存放到一个文件,取模为1的数据存放到一个文件,取模为2的数据存放到一个文件. 分区提供一个隔离数据和优化查询的便利方式.不过,并非所有的数据集都可形成合理的分区,特别是之前所提到过的要确定合适的划分大小这个…

sqoop导oracle数据到hive中并动态分区

静态分区: 在hive中创建表可以使用hql脚本: test.hql USE TEST; CREATE TABLE page_view(viewTime INT, userid BIGINT, page_url STRING, referrer_url STRING, ip STRING COMMENT 'IP Address of the User') COMMENT 'This is the page view table' PARTITIONED BY(dt STRING) STORED…

详解大数据采集引擎之Sqoop&采集oracle数据库中的数据

一.Sqoop的简介: Sqoop是一个数据采集引擎/数据交换引擎,采集关系型数据库(RDBMS)中的数据,主要用于在RDBMS与HDFS/Hive/HBase之间进行数据传递,可以通过sqoop import命令将RDBMS中的数据导入到HDFS/Hive/HBase中,也可以通过sqoop export命令将HDFS/Hive/HBase中的数据导入到RDBMS中,特点:批量采集数据,底层依赖于MapReduce程序,工作原理:通过JDBC连接到关系型数据库(RDBMS). 二.Sqoop的…

使用sqoop从Oracle或mysql抽取数据到HDFS遇到的报错及解决

一.参考文档: 1.https://www.rittmanmead.com/blog/2014/03/using-sqoop-for-loading-oracle-data-into-hadoop-on-the-bigdatalite-vm/ 2.http://www.cnblogs.com/bjtu-leefon/archive/2013/06/28/3160549.html 二.使用脚本 ----sqoop import zdsd 使用注意: 1.执行节点 Sqoop_home/lib 里添…

sqoop将oracle数据导入hdfs集群

使用sqoop将oracle数据导入hdfs集群集群环境: hadoop1.0.0 hbase0.92.1 zookeeper3.4.3 hive0.8.1 sqoop-1.4.1-incubating__hadoop-1.0.0.tar 首先,当然前提是Hadoop集群环境已经搭建好了.如没有搭建好,可以参考上期日志:http://blog.csdn.NET/shatelang/article/details/7605939 将hadoop,Hbase,zookeeper以及Oracle j…

【使用pyspark模仿sqoop从oracle导数据到hive的主要功能（自动建表，分区导入，增量，解决数据换行符问题）】的更多相关文章