从hive中读取数据推送到kafka

由python2.7语言实现的，包也比较旧了。

# -*- coding: utf-8 -*-

# Version: 1.0.0

# Description: py_Hive2Kafka2kafka

# Author: wqbin

# Create_date:20191026

import re

import sys

import os

import logging

import string

import datetime

import time

import random

import subprocess as sp

from logging import handlers

from time import strftime, localtime

from pyhs2.haconnection import HAConnection

from kafka import KafkaProducer

################################环境变量的设置############################################

#1.指定编码格式

os.environ['NLS_LANG'] = 'SIMPLIFIED CHINESE_CHINA.UTF8'

#2.加载fi的环境变量

ENV_FILE='/home/root/ficlient/bigdata_env'

#加载ENV_FILE 相当于source /home/root/ficlient/bigdata_env

proc = sp.Popen(['bash','-c','source {0} && env'.format(ENV_FILE)],stdout = sp.PIPE)

for tup in map(lambda s: s.strip().split('=',1),proc.stdout):

    k=tup[0].strip()

    v=tup[1].strip()

    os.environ[k]=v

#3.KERBEROS 认证

KERBEROS_USER = "rootuser"

KERBEROS_KEYTAB = "/home/root/rootuser.keytab"

TGT_PATH="/home/root/tagidentity.tgt"

os.environ['KRB5CCNAME'] = TGT_PATH

os.system("kinit -kt %s %s" % (KERBEROS_KEYTAB,KERBEROS_USER))

#4.脚本路径 日志路径 配置路径

#MAIN_PATH = os.path.abspath(os.path.join(os.path.dirname("__file__"),os.path.pardir))

MAIN_PATH = "/ETL/pybin/py_Hive2Kafka"

LOG_PATH = MAIN_PATH + "/log"

CONF_PATH = MAIN_PATH + "/conf"

#5.参数1：批次时间 20180721

batch_date = sys.argv[1]

################################日志######################################################

#日志中的时间格式

ISOTIMEFORMAT = '%Y-%m-%d %H:%M:%S'

#日志路径

logfile = "%s/%s.log" % (LOG_PATH,batch_date)

#整合层日志

LOGGER = logging.getLogger("data_life_manager")

LOGGER_HANDLER = logging.handlers.RotatingFileHandler(logfile, maxBytes=20*1024*1024, backupCount=10)

FORMATTER = logging.Formatter("\r%(asctime)s [%(levelname)s] %(message)s", ISOTIMEFORMAT)

LOGGER_HANDLER.setFormatter(FORMATTER)

LOGGER.setLevel(logging.INFO)

LOGGER.addHandler(LOGGER_HANDLER)

console = logging.StreamHandler()

console.setLevel(logging.INFO)

console.setFormatter(FORMATTER)

LOGGER.addHandler(console)

logger = LOGGER

logger.info(MAIN_PATH)

###################################从配置文件中获取配置###################################

def get_conf(conf_file):

    """

    Get conf from a file having attribute which relatives by equal sign.

    Then, it will create and return  a dic with conf.

    """

    conf = {}

    def add_conf(key, value):

        conf[key] = value

    map(lambda _: add_conf(_[0:_.index('=')], _[_.index('=') + 1:]),

        map(lambda _: _.replace('"', '').replace('\n', ''),

            #获取有效的配置行

            filter(lambda _: "=" in _ and not _.startswith('#'),

                   open(conf_file).readlines()

                   )

            )

        )

    return conf

db_config = get_conf(MAIN_PATH + '/conf/database.conf')

#Hive连接配置

HIVE_HOSTS = db_config.get('HIVE_HOSTS').split(',')

HIVE_PORT = db_config.get('HIVE_PORT')

queue_name = db_config.get('QUEUE_NAME')

###################################连接hive执行sql###################################

#查询统计结果sql

sql=''

if batch_date[6:8]=='':

    print 'batch_date[6:7]:%s'%batch_date[6:8]

    sql = "select column1,column2,column3,column4 from table1 where batch_date=%s ;" % (batch_date)

else:

    print 'batch_date[6:7]:%s'%batch_date[6:8]

    sql = "select column1,column2   from table1 where batch_date=%s ;" % (batch_date)

database = "dt"

templatecode = ""

transcode = ""

orsenderid = ""

orsenderchannel = ""

def select_hive(queue_name, database, sql, logger):

    v_queue_name = "set mapred.job.queue.name=%s" % queue_name

    v_database = "use %s" % database

    sql = sql.encode('UTF-8')

    v_sql = re.sub(r';$', '', sql)

    timeout11 = 3 * 60 * 60 * 1000

    conf = {"krb_host": "hadoop001", "krb_service": "hive"}

    print v_queue_name

    print v_database

    print v_sql

    try:

        with HAConnection(hosts=HIVE_HOSTS,

                          port=HIVE_PORT,

                          timeout=timeout11,

                          authMechanism="KERBEROS",

                          user='rootuser',

                          configuration=conf) as haConn:

            with haConn.getConnection() as conn:

                with conn.cursor() as cur:

                    print v_queue_name

                    logger.info(v_queue_name)

                    cur.execute(v_queue_name)

                    print v_database

                    logger.info(v_database)

                    cur.execute(v_database)

                    print v_sql

                    logger.info(v_sql)

                    cur.execute(v_sql)

                    tuple_dic = cur.fetchall()

                    if len(tuple_dic) == 0:

                        tuple_dic = None

    except Exception, e:

        logger.error(e)

        raise Exception(e)

    return tuple_dic

####################################自定义异常类###################################

class UserDefException(Exception):

    def __init__(self,msg):

        self.msg=msg

    def __str__(self):

        return self.msg

####################################拼接json字符串 发送kafka方法###################################

def send_json_to_Kafka(batch_date):

    data_cnt_tuple_dic = select_hive(queue_name, database, sql, logger)

    print data_cnt_tuple_dic

    list = []

    try:

        for a in data_cnt_tuple_dic:

           if len(a)==2:

               list.append(a[0])

               list.append(a[1])

               break

           elif len(a)==4:

              list.append(a[0])

              list.append(a[1])

              list.append(a[2])

              list.append(a[3])

              break

           else:

               raise UserDefException("select返回不是4也不是2")

    except Exception, e:

        list = []

        logger.error(e)

    print list

    orSenderSN = ''.join(random.sample(string.ascii_letters + string.digits, 22))

    agentSerialNo = ''.join(random.sample(string.ascii_letters + string.digits, 8))

    verison_name = "abc"

    model_plat = ""

    msg_head = '{"TemplateCode":"%s","TransCode":"%s","orSenderID":"%s","orSenderChannel":"%s","orSenderSN":"%s",' \

           '"orSenderDate":"%s","curTime":"%d","agentSerialNo":"%s"}' \

           % (templatecode, transcode, orsenderid, orsenderchannel, orSenderSN,

              time.strftime("%Y%m%d", time.localtime()), int(round(time.time() * 1000)), agentSerialNo)

    start_time = batch_date

    end_time = batch_date

    if batch_date[6:8]=='':

        end_time=datetime.datetime.combine(datetime.date(int(batch_date[0:4]),int(batch_date[4:6]),int(batch_date[6:8]))-datetime.timedelta(days=30),datetime.time.min).strftime("%Y%m%d")

    try:

        if batch_date[6:8]=='':

            msg_result = '{' \

             '"%s":%s,' \

             '"%s":%s,' \

             '"%s":%s,' \

             '"%s":%s' \

             '}' % ("column1",list[0],"column2",list[1],"column3",list[2],"column4",list[3])

        elif batch_date[6:8]!='':

            msg_result = '{' \

             '"%s":%s,' \

             '"%s":%s' \

             '}' % ("column1",list[0],"column2",list[1])

        else:

            raise UserDefException("select返回不是4也不是2")

    except Exception, e:

        logger.error(e)

        raise Exception(e)

    msg_body = '{"verison_name":"%s","version":"","model_plat":"%s","event_start_tm":"%s","event_end_tm":"%s","result":%s}' \

           % (verison_name, model_plat, start_time, end_time, str(msg_result).replace("'", '"'))

    msg = '{"head":%s,"body":%s}' % (msg_head, msg_body)

    logger.info(msg)

    try:

        send_kafka(msg)

    except Exception, e:

        logger.error(e)

        raise Exception(e)

bootstrap_servers = '192.168.164.202:9092,192.168.164.203:9092,192.168.164.204:9092'

topic = 'topic1'

retries = 2

# 发送数据到kafka

def send_kafka(msg):

    try:

        producer = KafkaProducer(bootstrap_servers=bootstrap_servers, retries=retries)

    except Exception as e:

        logger.error(e)

        raise Exception("catch an exception when create KafkaProducer")

    try:

        producer.send(topic, msg)

        producer.flush()

        producer.close()

    except Exception as e:

        logger.error(e)

        if producer:

            producer.close()

        raise Exception("catch an exception when send message:%s" % msg)

if __name__ == '__main__':

    send_json_to_Kafka(batch_date)

    print "data from hive to kafka has all successed"

conf文件如下

#Hive

HIVE_HOSTS=192.168.154.201

HIVE_PORT=

QUEUE_NAME=NO1

PUB_BIGDATA_ENV_FILE=/home/root/bigdata_env

PUB_HIVE_ENV_FILE=/home/root/Hive/component_env

PUB_COMMON_PATH=/etl/pub

PUB_KEYTAB_PATH=/etl/pub/keytab_file

从hive中读取数据推送到kafka的更多相关文章

HTML5支持服务器发送事件(Server-Sent Events)-单向消息传递数据推送（C#示例）
传统的WEB应用程序通信时的简单时序图: 现在Web App中,大都有Ajax,是这样子: HTML5有一个Server-Sent Events(SSE)功能,允许服务端推送数据到客户端.(通常叫数据 ...
一个I/O线程可以并发处理N个客户端连接和读写操作 I/O复用模型基于Buf操作NIO可以读取任意位置的数据 Channel中读取数据到Buffer中或将数据 Buffer 中写入到 Channel 事件驱动消息通知观察者模式
Tomcat那些事儿 https://mp.weixin.qq.com/s?__biz=MzI3MTEwODc5Ng==&mid=2650860016&idx=2&sn=549 ...
Kafka消费者从Kafka中读取数据并写入文件
Kafka消费者从Kafka中读取数据最近有需求要从kafak上消费读取实时数据,并将数据中的key输出到文件中,用于发布端的原始点进行比对,以此来确定是否传输过程中有遗漏数据. 不废话,直接上代 ...
使用Node.js实现数据推送
业务场景:后端更新数据推送到客户端(Java部分使用Tomcat服务器). 后端推送数据的解决方案有很多,比如轮询.Comet.WebSocket. 1. 轮询对于后端来说开发成本最低,就是按照传统的 ...
iOS开发中的远程推送实现(最新，支持iOS9)
我的个人项目<丁丁印记>中加入了远程推送功能,按照操作说明去做还是比较容易实现的,但是学的不够不系统,而且iOS8之后的推送和之前的版本是有所不同的,因此这篇文章希望总结一下最新的iOS推 ...
基于Web的数据推送技术(转)
基于Web的数据推送技术对于实时性数据显示要求比较高的系统,比如竞价,股票行情,实时聊天等,我们的解决方案有以下几种.1. HTTP请求发送模式,一般可以基于ajax的请求,比如每3秒一次访问下服务 ...
HTML5中的服务器‘推送’技术 -Server-Sent Events
转帖:http://www.developersky.net/thread-63-1-1.html 一直以来,HTTP协议都是严格遵循Request-Response模型的.客户端发送一个Reques ...
SSE技术详解：使用 HTTP 做服务端数据推送应用的技术
SSE ( Server-sent Events )是 WebSocket 的一种轻量代替方案,使用 HTTP 协议. 严格地说,HTTP 协议是没有办法做服务器推送的,但是当服务器向客户端声明接下来 ...
C# 数据推送实时数据推送轻量级消息订阅发布多级消息推送分布式推送
前言本文将使用一个NuGet公开的组件技术来实现数据订阅推送功能,由服务器进行推送数据,客户端订阅指定的数据后,即可以接收服务器推送过来的数据,包含了自动重连功能,使用非常方便 nuget地址:ht ...

随机推荐

配置中心 Spring Cloud config
配置管理工具包,让你可以把配置放到远程服务器,集中化管理集群配置,目前支持本地存储.Git以及Subversion. 1.服务端创建spring boot 项目主要依赖 <dependenc ...
OpenStack组件——Neutron网络服务(1)
1.neutron 介绍: 1)Neutron 概述传统的网络管理方式很大程度上依赖于管理员手工配置和维护各种网络硬件设备:而云环境下的网络已经变得非常复杂,特别是在多租户场景里,用户随时都可能需要 ...
华为HCNA乱学Round 12：NAT和easy IP
Spring Cloud Feign原理及性能
什么是Feign? Feign 的英文表意为“假装,伪装,变形”, 是一个http请求调用的轻量级框架,可以以Java接口注解的方式调用Http请求,而不用像Java中通过封装HTTP请求报文的方式直 ...
【Linux-驱动】RTC设备驱动架构
在Linux操作系统中,RTC设备驱动的架构如下图所示: RTC设备驱动涉及的文件:class.c.rtc-dev.c : 建立/dev/rtc0设备,同时注册相应的操作函数.interface.c ...
delphi 连接各中数据库方法
---恢复内容开始--- 数据库连接字符串的拼写规则的决定条件: • 连接的数据库的类型:SQL Server,Oracle,MySQL,Acess,MogoDB,Visual FoxPro(dBAS ...
Python环境配置问题及解决办法
Windows下用pip安装包时出现"error: Microsoft Visual C++ 9.0 is required"错误 error: Microsoft Visual ...
JAVA基础--JAVA API集合框架(其他集合类，集合原理)
一.ArrayList介绍 1.ArrayList介绍 ArrayList它是List接口的真正的实现类.也是我们开发中真正需要使用集合容器对象. ArrayList类,它是List接口的实现.肯定拥 ...
Luogu P2617 Dynamic Rankings（整体二分）
题目动态区间第K小模板题. 一个非常可行的办法是BIT套动态开点权值SegTree,但是它跑的实在太慢了. 然后由于这题并没有强制在线,所以我们可以使用整体二分来吊打树套树. 当然如果强制在线的话就 ...
FFmpeg4.0笔记：采集桌面
Github https://github.com/gongluck/FFmpeg4.0-study/tree/master/Cff // 采集桌面 void test_desktop() { boo ...

从hive中读取数据推送到kafka

从hive中读取数据推送到kafka的更多相关文章

随机推荐

热门专题