Spark系列-SparkSQL实战
- Spark系列-初体验(数据准备篇)
- Spark系列-核心概念
- Spark系列-SparkSQL
之前系统的计算大部分都是基于Kettle + Hive的方式,但是因为最近数据暴涨,很多Job的执行时间超过了1个小时,即使是在优化了HiveQL的情况下也有超过30分钟,所以近期把计算引擎从Hive变更为Spark。
普通的简单Job就使用SparkSQL来计算,数据流是经过spark计算,把结果插入到Mysql中
在项目中新建三个类,第一个Logger类用于日志的输出
# coding=utf-8 import logging from logging import handlers class Logger(object): leven_relations = { 'debug':logging.DEBUG, 'info':logging.INFO, 'warning': logging.WARNING, 'error': logging.ERROR } def __init__(self, fileName, level='info', when='D', backCount=3, fmt='%(asctime)s - %(pathname)s[line:%(lineno)d] - %(levelname)s: %(message)s'): self.logger = logging.getLogger(fileName) format_str = logging.Formatter(fmt) self.logger.setLevel(self.leven_relations.get(level)) #屏幕日志 sh = logging.StreamHandler() sh.setFormatter(format_str) #文件日志 th = handlers.TimedRotatingFileHandler(filename=fileName, when=when, backupCount=backCount, encoding='utf-8') th.setFormatter(format_str) self.logger.addHandler(th) self.logger.addHandler(sh)
第二个是SparkSQL公共类,引用的是pyspark
# coding=utf-8 from pyspark import SparkConf,SparkContext from pyspark.sql import HiveContext class SparkSqlCommon(object): sql_str = '' app_name = '' def __init__(self, sql, app_name): if sql is None: raise Exception('sql cannot be empty') self.sql_str = sql if app_name is None: raise Exception('app_name cannot be empty') self.app_name = app_name def execute(self): spark_conf = SparkConf().setAppName(self.app_name) spark_context = SparkContext(conf=spark_conf) spark_context.setLogLevel("INFO") hive_context = HiveContext(spark_context) result_rdd = hive_context.sql(self.sql_str) result = result_rdd.collect() return result
第三个是Mysql公共类,用于把计算结果落地到mysql
# coding=utf-8 import pymysql from com.randy.common.Logger import Logger class DatacenterCommon(object): sql_str = '' jdbcHost = '' jdbcPort = '' jdbcSchema = '' jdbcUserName = '' jdbcPassword = '' '): if sql_str is None: raise Exception('sql_str cannot be empty') self.sql_str = sql_str self.jdbcHost = jdbcHost self.jdbcPort = jdbcPort self.jdbcSchema = jdbcSchema self.jdbcUserName = jdbcUserName self.jdbcPassword = jdbcPassword self.log = log def execute(self): db = pymysql.connect(host=self.jdbcHost, port=self.jdbcPort, user=self.jdbcUserName, passwd=self.jdbcPassword, db=self.jdbcSchema, charset='utf8') try: db_cursor = db.cursor() db_cursor.execute(self.sql_str) db.commit() except Exception, e: self.log.logger.error('str(e):\t\t', str(e)) db.rollback()
调用的客户端代码如下
# coding=utf-8 # !/usr/bin/python2.7 import datetime from com.randy.spark.Logger import Logger from com.randy.spark.SparkSqlCommon import SparkSqlCommon from com.randy.spark.DatacenterCommon import DatacenterCommon #需要修改,每个应用都不一样 app_name = 'demo1' # SparkSql(不能以分号结尾) select_sql = ''' SELECT count(*) from futures.account ''' # Mysql insert_sql = ''' insert into demo.demo1(id) values({0}); ''' if __name__ == '__main__': currentDay = datetime.datetime.now().strftime('%Y%m%d') log = Logger('/home/python-big-data-job/log/' + app_name + "_" + str(currentDay) + '.log') log.logger.info("**************************start invoke {0},{1} *****************".format(app_name,currentDay)) sparkSqlCommon = SparkSqlCommon(sql=select_sql,app_name=app_name) selectResult = sparkSqlCommon.execute() log.logger.info("sparkSqlCommon result:{0}".format(selectResult)) if selectResult is None: log.logger.error("taojin_1 selectResult while is empty") else: insert_sql = insert_sql.format(selectResult[0][0]) log.logger.info(insert_sql) datacenterCommon = DatacenterCommon(sql_str=insert_sql, log=log) datacenterCommon.execute() log.logger.info("**************************end invoke {0},{1} *****************".format(app_name, currentDay))
其中spark-submit提交代码如下:
sudo -u hdfs spark-submit --master local[*] --py-files='/home/python-big-data-job/com.zip,/home/python-big-data-job/pymysql.zip' /home/python-big-data-job/taojin/demo1.py
因为项目中使用到了本地文件,所有把三个公共类打包到了com.zip中作为依赖文件
其中pymysql.zip是pymysql的源码文件,因为我在过程中发现了ImportError: No module named pymysql
但是集群已经使用pip安装了pymysql,没有找到有效解决办法,按照https://zhuanlan.zhihu.com/p/43434216和https://www.cnblogs.com/piperck/p/10121097.html都无效,最终只能把pymysql以依赖文件的方式打包
其中使用yarn cluster部署也还存在问题
Spark系列-SparkSQL实战的更多相关文章
- sparkSQL实战详解
摘要 如果要想真正的掌握sparkSQL编程,首先要对sparkSQL的整体框架以及sparkSQL到底能帮助我们解决什么问题有一个整体的认识,然后就是对各个层级关系有一个清晰的认识后,才能真正的 ...
- Hive On Spark和SparkSQL
SparkSQL和Hive On Spark都是在Spark上实现SQL的解决方案.Spark早先有Shark项目用来实现SQL层,不过后来推翻重做了,就变成了SparkSQL.这是Spark官方Da ...
- Spark大型项目实战:电商用户行为分析大数据平台
本项目主要讲解了一套应用于互联网电商企业中,使用Java.Spark等技术开发的大数据统计分析平台,对电商网站的各种用户行为(访问行为.页面跳转行为.购物行为.广告点击行为等)进行复杂的分析.用统计分 ...
- 基于Spark和SparkSQL的NetFlow流量的初步分析——scala语言
基于Spark和SparkSQL的NetFlow流量的初步分析--scala语言 标签: NetFlow Spark SparkSQL 本文主要是介绍如何使用Spark做一些简单的NetFlow数据的 ...
- Spark系列-核心概念
Spark系列-初体验(数据准备篇) Spark系列-核心概念 一. Spark核心概念 Master,也就是架构图中的Cluster Manager.Spark的Master和Workder节点分别 ...
- Spark系列-初体验(数据准备篇)
Spark系列-初体验(数据准备篇) Spark系列-核心概念 在Spark体验开始前需要准备环境和数据,环境的准备可以自己按照Spark官方文档安装.笔者选择使用CDH集群安装,可以参考笔者之前的文 ...
- nginx高性能WEB服务器系列之五--实战项目线上nginx多站点配置
nginx系列友情链接:nginx高性能WEB服务器系列之一简介及安装https://www.cnblogs.com/maxtgood/p/9597596.htmlnginx高性能WEB服务器系列之二 ...
- hive on spark VS SparkSQL VS hive on tez
http://blog.csdn.net/wtq1993/article/details/52435563 http://blog.csdn.net/yeruby/article/details/51 ...
- Docker系列之实战:3.安装MariaDB
环境 [root@centos181001 ~]# cat /etc/centos-release CentOS Linux release 7.6.1810 (Core) [root@centos1 ...
随机推荐
- Java入门系列-15-封装
为什么要封装 Student stu=new Student(); stu.age=-10; 上面的代码中 age 属性被随意访问,容易产生不合理的赋值 什么是封装 封装:将类的某些信息隐藏在内部,不 ...
- 【AAA】AAA协议介绍
AAA AAA简介 AAA是认证(Authentication).授权(Authorization)和计费(Accounting)的简称,是网络安全中进行访问控制的一种安全管理机制,提供认证.授权和计 ...
- java gc 随记
gc为garbage collection的缩写,中文翻译为垃圾回收.垃圾为不在使用的实例.变量,回收为释放垃圾所占用的内存空间. 学习过的C语言.C++语言,是没有垃圾回收机制的,因此需要软件工程师 ...
- 02.ToString()方法详解
ToString()使用方法汇总(C#) C 货币 2.5.ToString("C") ¥2.50 D 十进制数 25.ToString("D5") 00025 ...
- Spring学习笔记:面向切面编程AOP(Aspect Oriented Programming)
一.面向切面编程AOP 目标:让我们可以“专心做事”,避免繁杂重复的功能编码 原理:将复杂的需求分解出不同方面,将公共功能集中解决 *****所谓面向切面编程,是一种通过预编译方式和运行期动态代理实现 ...
- Mybatis插入、查询自定义的数据类型的方式
1.首先创建JavaBean对象 package com.zuo.Mybatis.bean; public class PhoneNumber { private String countryCode ...
- Servlet开发(三)之ServletConfig,ServletContext
1. ServletConfig Servlet是开发动态web的技术,而web.xml是Tomcat工程中最基础也最重要的配置文件,Tomcat启动项目的时候会加载并读取这个文件,其中web.xml ...
- hdu1385 最短路字典序
http://blog.csdn.net/ice_crazy/article/details/7785111 http://blog.csdn.net/shuangde800/article/deta ...
- Vue引入第三方JavaScript库和如何创建自己的Vue插件
一 第三方JavaScript库 前言 .vue文件 中不解析 script标签引入js文件,只能用 import 引入 有两种用法: 1.import a from '../a' 2.import ...
- SVN认证失败的错误分析
作者:朱金灿 来源:http://blog.csdn.net/clever101 时常碰见SVN认证失败的问题,经过一番思考,可以总结出错误根源是:在SVN的数据库目录下有一个svnserve.con ...