kafka消费者实时消费数据存入hdfs java scalca 代码

hadoop-client依赖很乱 调试很多次cdh版本好多jar没有 用hadoop2.7.3可以

   自定义输出流的池子进行流管理

 public void writeLog2HDFS(String path, byte[] log) {

        try {

            //得到我们的装饰流

            FSDataOutputStream out = HDFSOutputStreamPool.getInstance().takeOutputStream(path);

            out.write(log);

            out.write("\r\n".getBytes());

            out.hsync();

            out.close();

        } catch (Exception e) {

            e.printStackTrace();

        }

    }

}

/**

  * @created by imp ON 2019/3/1

  */

object KafkaScalaConsumer {

  val  write=new HDFSWriter()

  def ZK_CONN     = "192.168.121.12:2181"

  def GROUP_ID    = "1test-consumer-group109"

  def TOPIC       = "eshop"

  def main(args: Array[String]): Unit = {

    //println(" 开始了 ")

    val connector = Consumer.create(createConfig())

    val topicCountMap = new HashMap[String, Int]()

    topicCountMap.put(TOPIC, 3) // TOPIC在创建时就指定了它有3个partition

    val msgStreams: Map[String, List[KafkaStream[Array[Byte], Array[Byte]]]] = connector.createMessageStreams(topicCountMap)

    println("# of streams is " + msgStreams.get(TOPIC).get.size)

    val threadPool:ExecutorService=Executors.newFixedThreadPool(3)

    var index = 0;

    for (stream <- msgStreams.get(TOPIC).get) {

      threadPool.execute(new ThreadDemo("consumer_"+index,stream))

      index+=1;

    }

  }

  class ThreadDemo(threadName:String,stream:KafkaStream[Array[Byte], Array[Byte]]) extends Runnable{

    override def run(): Unit = {

      val it: ConsumerIterator[Array[Byte], Array[Byte]] = stream.iterator();

      while(it.hasNext()){

        val data : MessageAndMetadata[Array[Byte], Array[Byte]] = it.next()

        val msg=data.message()

        val log = new String(msg)

        val arr = StringUtil.splitLog(log)

        if (arr == null || arr.length < 1) return //todo: continue is not supported

        //主机名

        val hostname = StringUtil.getHostname(arr)

        //日期串

        val dateStr = StringUtil.formatYyyyMmDdHhMi(arr)

        //path

        val rawPath = "/spark/eshop/" + dateStr + "/" + hostname + ".log"

        //写入数据到hdfs

        System.out.println(log)

       write .writeLog2HDFS(rawPath, msg)

      }

    }

  }

  def createConfig(): ConsumerConfig = {

    val props = new Properties()

    props.put("zookeeper.connect", ZK_CONN)

//    props.put("bootstrap.servers","localhost:9092")

    props.put("group.id", GROUP_ID)

    props.put("zookeeper.session.timeout.ms", "")

    props.put("zookeeper.connection.timeout.ms","")

    props.put("auto.offset.reset", "smallest")

    props.put("auto.commit.interval.ms", "")

    props.put("rebalance.backoff.ms","")

    props.put("rebalance.max.retries","")

    props.put("auto.offset.reset", "smallest")

    new ConsumerConfig(props)

  }

}

kafka消费者实时消费数据存入hdfs java scalca 代码的更多相关文章

SparkStreaming+Kafka 处理实时WIFI数据
业务背景技术选型 Kafka Producer SparkStreaming 接收Kafka数据流基于Receiver接收数据直连方式读取kafka数据 Direct连接示例使用Zookeep ...
Kafka消费者拉取数据异常Unexpected error code 2 while fetching data
Kafka消费程序间歇性报同一个错: 上网没查到相关资料,只好自己分析.通过进一步分析日志发现,只有在拉取某一个特定的topic的数据时报错,如果拉取其他topic的数据则不会报错.而从这个异常信息来 ...
相同数据源情况下，使用Kafka实时消费数据 vs 离线环境下全部落表后处理数据，结果存在差异
原因分析: 当某个consumer宕机时,消费位点(例如2s提交一次)尚未提交到zookeeper,此时Kafka集群自动rebalance后另一consumer来接替该宕机consumer继续消费, ...
【原创】MapReduce备份Elasticsearch数据到HDFS(JAVA)
一.环境:JAVA8,Elasticsearch-5.6.2,Hadoop-2.8.1二.实现功能:mapreduce读elasticsearch数据.输出parquet文件.多输出路径三.主要依赖 ...
使用 RSA 非对称加密保证数据不被篡改 java 例子代码
原理: 对原始数据生成有序的json 字符串,然后取摘要,然后对摘要进项分对称加密.( 不对原数据加密是应为原数据太大,加解密速度太慢,非对称加密都不挺慢的.在摘要函数具有雪崩效应 ,原 ...
Flume和Kafka完成实时数据的采集
Flume和Kafka完成实时数据的采集写在前面 Flume和Kafka在生产环境中,一般都是结合起来使用的.可以使用它们两者结合起来收集实时产生日志信息,这一点是很重要的.如果,你不了解flume ...
Kafka 消费者
应用从Kafka中读取数据需要使用KafkaConsumer订阅主题,然后接收这些主题的消息.在我们深入这些API之前,先来看下几个比较重要的概念. Kafka消费者相关的概念消费者与消费组假设这 ...
【Kafka】实时看板案例
目录项目需求项目模型实现步骤项目需求快速计算双十一当天的订单量和销售金额项目模型实现步骤一.创建topic bin/kafka-topics.sh --create --topic i ...
Kafka 消费者及消费者分区策略
消费方式: consumer 采用 pull(拉)模式从 broker 中读取数据. push(推)模式很难适应消费速率不同的消费者,因为消息发送速率是由 broker 决定的. 它的目标是尽可能以最 ...

随机推荐

Android8 自定义广播接收不到的问题
最近在用安卓广播的时候,按照流程进行操作,可是不管怎样都没有出现我接受的广播,网上查阅资料以后,发现在Android8中,如果是静态注册广播,需要在action中保留原来的静态广播,加入Compone ...
使用 Sublime Text 将含下划线的字符串批量替换为驼峰命名法格式的字符串
本文版权归cxun所有,如有转载请注明出处与本文链接,谢谢!原文地址:http://www.cnblogs.com/cxun/p/7762984.html For indexing: Convert ...
How to write threats to validity?
Paper reference Threats to construct validity are concerned with the relationship between theory and ...
xgboost原理
出处http://blog.csdn.net/a819825294 1.序距离上一次编辑将近10个月,幸得爱可可老师(微博)推荐,访问量陡增.最近毕业论文与xgboost相关,于是重新写一下这篇文章 ...
Windows 环境下 wampserver 与 phpStudy 的环境配置
一. wamperserver 1.下载好安装到本地指定目录,官网下载地址 http://www.wampserver.com 2.根据自己实际的安装路径,D:\pc\wampserver\wamp ...
archlinux 下使用 aria2+uget 作为下载工具
1.创建配置文件 sudo vim /etc/aria2/aria2.conf ## /etc/aria2/aria2.conf### '#'开头为注释内容, 选项都有相应的注释说明, 根据需要修改 ...
PAT1111 Online Map【最短路】【dfs】
题目:https://pintia.cn/problem-sets/994805342720868352/problems/994805358663417856 题意: 给定一个图,每天边上有时间和路 ...
算法基础_递归_求杨辉三角第m行第n个数字
问题描述: 算法基础_递归_求杨辉三角第m行第n个数字(m,n都从0开始) 解题源代码(这里打印出的是杨辉三角某一层的所有数字,没用大数,所以有上限,这里只写基本逻辑,要符合题意的话,把循环去掉就好) ...
一招制敌 - 玩转 AngularJS 指令的 Scope (作用域),讲得特别好
学习了AngularJS挺长时间,最近再次回首看看指令这部分的时候,觉得比自己刚开始学习的时候理解的更加深入了,尤其是指令的作用域这部分. 步入正题: 每当一个指令被创建的时候,都会有这样一个选择,是 ...
android 知识汇总
1.assets:不会在R.java文件下生成相应的标记,assets文件夹可以自己创建文件夹,必须使用AssetsManager类进行访问,存放到这里的资源在运行打包的时候都会打入程序安装包中, 2 ...

kafka消费者实时消费数据存入hdfs java scalca 代码

kafka消费者实时消费数据存入hdfs java scalca 代码的更多相关文章

随机推荐

热门专题