使用pyspark模仿sqoop从oracle导数据到hive的主要功能（自动建表，分区导入，增量，解决数据换行符问题）

　　最近公司开始做大数据项目，让我使用sqoop（1.6.4版本）导数据进行数据分析计算，然而当我们将所有的工作流都放到azkaban上时整个流程跑完需要花费13分钟，而其中导数据（增量）就占了4分钟左右，老板给我提供了使用 spark 导数据的思路，学习整理了一个多星期，终于实现了sqoop的主要功能。

　　这里我使用的是pyspark完成的所有操作。

　　条件：hdfs平台，pyspark，ubuntu系统

　　运行：我这里是在 /usr/bin 目录下（或者指定在此目录下）运行的python文件，也可以使用系统自带的pyspark

 ./spark-submit --jars "/home/engyne/spark/ojdbc7.jar" --master local  /home/engyne/spark/SparkDataBase.py

　　其中--jars 是指定连接oracle的驱动，ojdbc7.jar对应的是oracle12版本，--master local /...指定的是运行的python文件

　　注意：我的代码没有解决中文问题，所以不管是注释还是代码中都不能出现中文，记得删除！！！

　　1、pyspark连接oracle，导数据到hive（后面的代码需要在此篇代码基础上进行，重复代码不再copy了）

 import sys

 from pyspark.sql import HiveContext

 from pyspark import SparkConf, SparkContext, SQLContext

 conf = SparkConf().setAppName('inc_dd_openings')

 sc = SparkContext(conf=conf)

 sqlContext = HiveContext(sc)

 #以下是为了在console中打印出表内容

 reload(sys)

 sys.setdefaultencoding("utf-8")

 get_df_url = "jdbc:oracle:thin:@//192.168.1.1:1521/ORCLPDB"

 get_df_driver = "oracle.jdbc.driver.OracleDriver"

 get_df_user = "xxx"

 get_df_password = "xxx"

 df = sqlContext.read.format("jdbc") \

     .option("url", get_df_url) \

     .option("driver", get_df_driver) \

     .option("dbtable", "STUDENT") \

     .option("user",  get_df_user).option("password", get_df_password) \

     .load()

 #df.show() #可以查看到获取的表的内容，默认显示20行

 sqlContext.sql("use databaseName")    #databaseName指定使用hive中的数据库

 #创建临时表

 df.registerTempTable("tempTable")

 #创建表并写入数据

 sqlContext.sql("create table STUDENT as select * from tempTable")

　　2、pyspark在hive中创建动态分区表

 #修改一下hive的默认设置以支持动态分区

 sqlContext.sql("set hive.exec.dynamic.partition=true")

 sqlContext.sql("set hive.exec.dynamic.partition.mode=nonstrict")

 #设置hive支持创建分区文件的最大值

 sqlContext.sql("SET hive.exec.max.dynamic.partitions=100000")

 sqlContext.sql("SET hive.exec.max.dynamic.partitions.pernode=100000")

　　这里需要先手动创建分区表，我使用dataframe的dtypes属性获取到表结构，然后循环拼接表的每个字段在hive中所对应的类型

　　最后写入表数据的代码是：

 sqlContext.sql("insert overwrite table STUDENT partition(AGE) SELECT ID,NAME,UPDATETIME,AGE FROM tempTable"）

　　3、实现增量导入数据

　　我这里使用了MySql数据库，用来存储增量导入的信息，创建表（job）

DROP TABLE IF EXISTS `job`;

CREATE TABLE `job` (

  `id` int(10) NOT NULL AUTO_INCREMENT,

  `database_name` varchar(50) DEFAULT NULL,     --数据库名称

  `table_name` varchar(100) DEFAULT NULL,       --需要增量导入的表名

  `partition_column_name` varchar(100) DEFAULT NULL,        --分区的字段名（这里只考虑对一个字段分区，如果多个字段这里应该使用一对多表结构吧）

  `partition_column_desc` varchar(50) DEFAULT NULL,     --分区字段类型

  `check_column` varchar(50) DEFAULT NULL,      --根据（table_name中）此字段进行增量导入校验（我这里例子使用的是updatetime）

  `last_value` varchar(255) DEFAULT NULL,       --校验值

  `status` int(1) NOT NULL,     --是否使用（1表示此job激活）

  PRIMARY KEY (`id`)

) INCREMENTAL=InnoDB AUTO_INCREMENT=81 DEFAULT CHARSET=utf8;

　　存储STUDENT表增量导入信息（这里是为了演示）

insert  into `job`(`id`,`database_name`,`table_name`,`partition_column_name`,`partition_column_desc`,`check_column`,`last_value`,`status`)values (1,'test_datebase','STUDENT','AGE','string','UPDATETIME','2018-07-30',1)

　　python 连接MySql的方法我这里就直接怼代码了，具体详解大家就看菜鸟教程

　　Ubuntu需要安装MySQLdb（ sudo apt-get install python-mysqldb ）

import MySQLdb

# insert        update        delete

def conMysqlDB_exec(sqlStr):

    db = MySQLdb.connect("192.168.xxx.xxx", "xx", "xx", "xx", charset='utf8' )

    cursor = db.cursor()

    try:

        cursor.execute(sqlStr)

        db.commit()

        result = True

    except:

        print("---->MySqlError: execute error")

        result = False

        db.rollback()

    db.close

    return result

# select

def conMysqlDB_fetchall(sqlStr):

    db = MySQLdb.connect("192.168.xxx.xxx", "xx", "xx", "xx", charset='utf8' )

    cursor = db.cursor()

    results = []

    try:

        cursor.execute(sqlStr)

        results = cursor.fetchall()

    except:

        print("---->MySqlError: unable to fecth data")

    db.close

    return results

　　查询增量信息，使用spark进行导入

findJobSql = "SELECT * FROM job where status=1"
result = conMysqlDB_fetchall(findJobSql)

databaseName = val[1]

tableName = val[2]

partitionColumnName = val[3]

partitionColumnDesc = val[4]

checkColumn = val[5]

lastValue = val[6]

sqlContext.sql("use database")

df = sqlContext.read.format("jdbc") \

            .option("url", "jdbc:oracle:thin:@//192.168.xxx.xxx:1521/ORCLPDB") \

            .option("driver", "oracle.jdbc.driver.OracleDriver") \

            .option("dbtable", "(select * from %s where to_char(%s, 'yyyy-MM-dd')>'%s')" % (tableName, checkColumn, lastValue)) \    #这里是关键，直接查询出新增的数据，这样后面的速度才能提升，否则要对整个表的dataframe进行操作，慢死了，千万不要相信dataframe的filter，where这些东西，4万多条数据要查3分钟！！！

            .option("user", "xxx").option("password", "xxx") \

            .load()

def  max(a, b):
　　　　if a>b:
　　　　　　return a
　　　　else:
　　　　　　return b

try:

    #获取到新增字段的最大值！！！（这块也困了我好久）这里使用的是python的reduce函数，调用的max方法

    nowLastValue = df.rdd.reduce(max)[checkColumn]

    df.registerTempTable("temp")#写入内容

    saveSql = "insert into table student select * from temp"

    sqlContext.sql(saveSql)

    #更新mysql表，使lastValue是表最新值

    updataJobSql = "UPDATE job SET last_value='%s' WHERE table_name='%s'" % (nowLastValue, tableName)

    if conMysqlDB_exec(updataJobSql):

        print("---->SUCCESS: incremental import success")

except ValueError:

    print("---->INFO: No new data added!")

except:

    print("---->ERROR: other error")

　　4、解决导入数据换行符问题

　　有时候oracle中的数据中会存在换行符（" \n "）然而hive1.1.0中数据换行默认识别的也是\n，最坑的是还不能对它进行修改（目前我没有查出修改的方法，大家要是有办法欢迎在评论区讨论）那我只能对数据进行处理了，以前使用sqoop的时候也有这个问题，所幸sqoop有解决换行符的语句，，，，巴拉巴拉，，，扯远了

　　解决换行符需要dataframe的map方法，然后使用lambda表达式进行replace，总结好就是下面的代码（第3行）

　　解释：这是个for循环里面加if else 判断，整个需要用 [ ] 包起来，没错这是个list ，如果不包就报错，lambda x 获取到的是表中一行行的数据，for循环对每一行进行遍历，然后对一行中每个字段进行判断，是否是unicode或者str类型，（一般只有是这两个类型才存在换行符）如果是则进行replace处理，否则不做处理。

　　转化好之后这是个rdd类型的数据，需要转化为dataframe类型才能写入hive

 #df自带获取schema的方法,不要学我去拼凑出来（												

											使用pyspark模仿sqoop从oracle导数据到hive的主要功能（自动建表，分区导入，增量，解决数据换行符问题）的更多相关文章	

								【HIVE】（1）建表、导入数据、外部表、导出数据
		导入数据 1). 本地 load data local inpath "/root/example/hive/data/dept.txt" into table dept; 2). ...
		
						sqoop 从oracle导数据到hive中，date型数据时分秒截断问题
		oracle数据库中Date类型倒入到hive中出现时分秒截断问题解决方案 1.问题描述: 用sqoop将oracle数据表倒入到hive中,oracle中Date型数据会出现时分秒截断问题,只保留了 ...
		
						oracle问题：新建了一个PDM文件，建表后生成的sql语句中含有clustered
		问题描述 为了在oracle中新增表,在PDM中建表,使用其生成的sql语句,但是建表不能成功,提示 ORA-00906: 缺失左括号 原因是多了clustered 关键字 情景重现 1. 新建一个p ...
		
						Hive管理表分区的创建，数据导入，分区的删除操作
		Hive分区和传统数据库的分区的异同: 分区技术是处理大型数据集经常用到的方法.在Oracle中,分区表中的每个分区是一个独立的segment段对象,有多少个分区,就存在多少个相应的数据库对象.而在P ...
		
						activiti 部署在oracle多用户下不能自动建表问题的解决！
		在activiti配置文件中的SpringProcessEngineConfiguration的配置项中添加<property name= "databaseSchema"  ...
		
						Activiti+oracle 启动项目时不能自动建表或更新表的问题分析及解决办法
		现象描述:按照正常配置,第一次启动时不能自动建表 关键配置片段如下: <bean id="processEngineConfiguration" class="or ...
		
						oracle自动创建表分区
		创建一个table,记录哪些表需要创建表分区 create table STAT_TABLE ( tablename VARCHAR2(), pre_partition_name VARCHAR2() ...
		
						Oracle Imp and Exp (导入和导出) 数据 工具使用
		Oracle 提供两个工具imp.exe 和exp.exe分别用于导入和导出数据.这两个工具位于Oracle_home/bin目录下. 导入数据exp 1 将数据库ATSTestDB完全导出,用户名s ...
		
						45.oracle表类型、数据拆分、表分区
		不要做一些没有意义的事情,就比如说你要离职并不打算吃回头草,离职理由中完全没有必要说明“领导的水平太渣,人品太差”此类的原因,而是“个人原因”,当然实在不批准辞职另说. oracle表类型 表的类型分 ...
		
		
	

随机推荐	

									转：ASP.NET前台代码绑定后台变量方法总结
			经常会碰到在前台代码中要使用(或绑定)后台代码中变量值的问题.一般有<%= str%>和<%# str %>两种方式,这里简单总结一下.如有错误或异议之处,敬请各位指教. 一方 ...
			
						详解Oracle DELETE和TRUNCATE 的区别
			原文地址:http://www.cnblogs.com/simplefrog/archive/2012/07/30/2615169.html 语法delete from aa truncate tab ...
			
						pip 设置国内源
			最近使用 pip 安装包,动辄十几 k 甚至几 k 的下载速度,确实让人安装的时候心情十分不好.所以还是要给 pip 换一个国内的源.可以显著的提升安装速度.有更多的时间来研究算法. 下面,列一下收集 ...
			
						Java-Swing常用布局管理器
			http://www.cnblogs.com/hthuang/p/3460234.html   5.Java-Swing常用布局管理器       应用布局管理器都属于相对布局,各组件位置可随界面大小 ...
			
						2.2Python基础语法（二）之运算符
			返回总目录 目录: 1.Python运算符的分类 2.算数运算符 3.复合运算符 4.比较运算符 5.逻辑运算符 (一)Python运算符的分类: (二)算数运算符: 注意下面三种算数符号: 1.** ...
			
						一、Ajax 	二、JSON数据格式 	三、Ajax+Jquery 	四、分页的实现
			一.Ajax概述###<1>概述 ###<2>组成 以XMLHttpRequest为核心,发送Ajax请求和接收处理结果 以javascript为语言基础 以XML/JSON作 ...
			
						django复习-1-环境搭建和创建项目
			一.虚拟环境搭建 1. 创建虚拟环境,需要联网 mkvirtualenv django_py3_1.11 -p python3 2. 安装Django 使用django 1.11.11版本,注意需要联 ...
			
						8.3Solr API使用(StatsComponent聚合统计)
			转载请出自出处:http://eksliang.iteye.com/blog/2169134 一.概述 Solr可以利用StatsComponent 实现数据库的聚合统计查询,也就是min.max.a ...
			
						前后端交互之封装Ajax+SpringMVC源码分析
			为什么需要封装呢?因为用的多,我想将其封装成函数,当我想用它时,只需将那个函数对应的js文件引入即可,而不要重复写很多相同代码,利于开发效率的提高. 无论是$.ajax或$.post.$.get等,在 ...
			
						【转】Android Camera 相机开发详解
			在Android 5.0(SDK 21)中,Google使用Camera2替代了Camera接口.Camera2在接口和架构上做了巨大的变动, 但是基于众所周知的原因,我们还必须基于 Android  ...

使用pyspark模仿sqoop从oracle导数据到hive的主要功能（自动建表，分区导入，增量，解决数据换行符问题）

使用pyspark模仿sqoop从oracle导数据到hive的主要功能（自动建表，分区导入，增量，解决数据换行符问题）的更多相关文章

随机推荐

热门专题