Kafka+Storm写入Hbase和HDFS

1.Storm整合Kafka

使用Kafka作为数据源，起到缓冲的作用

  // 配置Kafka订阅的Topic，以及zookeeper中数据节点目录和名字

 String zks = KafkaProperties.Connect;

 BrokerHosts brokerHosts = new ZkHosts(zks);

 String topic = KafkaProperties.topic;

 String group = KafkaProperties.groupId;

 SpoutConfig spoutConfig = new SpoutConfig(brokerHosts, topic, "/storm", group);

 spoutConfig.scheme = new SchemeAsMultiScheme(new StringScheme());

 spoutConfig.zkServers = Arrays.asList(new String[] {"192.168.211.1","192.168.211.2","192.168.211.3"});

 spoutConfig.zkPort = 2181;

 spoutConfig.ignoreZkOffsets = true;

 spoutConfig.startOffsetTime=-2L;

 KafkaSpout receiver = new KafkaSpout(spoutConfig);

 topologyBuilder.setSpout("kafka-spout", receiver);

KafkaProperties：

/**

 * 配置一些Storm从kafka取数据时，一些关于数据源的配置信息

 * @author kongc

 *

 */

public interface KafkaProperties {

   final static String Connect = "192.168.211.1:2181,192.168.211.2:2181,192.168.211.3:2181";

   final static String groupId = "kafka";

   final static String topic = "test_topic";

}

2.Storm整合HDFS

我们希望按照日期，创建文件，将Storm计算后的数据写入HDFS

采取的策略是通过获取系统当前时间，然后格式化成所要命名的字符串作为path,然后判断这个路径是否存在，存在则追加写入，不存在则创建。

/***************将数据存入HDFS**********************/

Path path = new Path("hdfs://192.168.1.170:8020/user/hive/warehouse/test_oee/" + format + "oee.txt");

synchronized (path) {

   try {

      if(KafkaTopology.fileSystem.exists(path)!=true){

         System.out.println("*************create*************");

         KafkaTopology.FDoutputStream = KafkaTopology.fileSystem.create(path, true);

      }else{

         if(KafkaTopology.FDoutputStream ==null){

            System.out.println("**************append*************");

            KafkaTopology.FDoutputStream = KafkaTopology.fileSystem.append(path);

         }

      }

      String data = mesg.getEquipment_name()+","+mesg.getDown_time()+","+mesg.getQualified_count()+","+mesg.getQualified_count()+","+mesg.getAll_count()+","+mesg.getPlan_time()+","+mesg.getProduce_time()+"\n";

      KafkaTopology.FDoutputStream.write(data.getBytes());

      KafkaTopology.FDoutputStream.close();

      KafkaTopology.FDoutputStream = null;

   } catch (IOException e) {

      e.printStackTrace();

   }

}

Storm整合Hbase

Storm写入Hbase

 /****************存入Hbase*****************/

String[] value = {

      mesg.getEquipment_name(),

      mesg.getDown_time(),

      mesg.getQualified_count(),

      mesg.getAll_count(),

      mesg.getPlan_time(),

      mesg.getProduce_time()

};

//System.out.println("hbase==>:"+value.toString());

HbaseHelper.insertData(

      KafkaTopology.tableName,

      mesg.getEquipment_name()+Math.random()*1000000000,

      KafkaTopology.family,value

);

this.collector.ack(input);

在调试Storm的过程中遇到一些问题。

错误信息：

NIOServerCnxn - caught end of stream exception

ServerCnxn$EndOfStreamException: Unable to read additional data from client sessionid 0x15cf25cbf2d000d, likely client has closed socket

Caused by: java.lang.NullPointerException

ERROR o.a.s.util - Halting process: ("Worker died")

错误原因：

追踪源码找到打印此语句的位置

/** Read the request payload (everything following the length prefix) */

    private void readPayload() throws IOException, InterruptedException {

        if (incomingBuffer.remaining() != 0) { // have we read length bytes?

                //尝试一次读进来

            int rc = sock.read(incomingBuffer); // sock is non-blocking, so ok

            if (rc < 0) {

                throw new EndOfStreamException(

                        "Unable to read additional data from client sessionid 0x"

                        + Long.toHexString(sessionId)

                        + ", likely client has closed socket");

            }

        }

     //一次读完

        if (incomingBuffer.remaining() == 0) { // have we read length bytes?

                //server的packet统计

            packetReceived();

                //准备使用这个buffer了

            incomingBuffer.flip();

                //如果CoonectRequst还没来，那第一个packet肯定是他了

            if (!initialized) {

                readConnectRequest();

            }

                //处理请他请求

            else {

                readRequest();

            }

                //清理现场，为下一个packet读做准备

            lenBuffer.clear();

            incomingBuffer = lenBuffer;

        }

    }

Kafka+Storm写入Hbase和HDFS的更多相关文章

Kafka+Storm+HDFS整合实践
在基于Hadoop平台的很多应用场景中,我们需要对数据进行离线和实时分析,离线分析可以很容易地借助于Hive来实现统计分析,但是对于实时的需求Hive就不合适了.实时应用场景可以使用Storm,它是一 ...
Zookeeper+Kafka+Storm+HDFS实践
Kafka是一种高吞吐量的分布式发布订阅消息系统,它可以处理消费者规模的网站中的所有动作流数据. Hadoop一般用在离线的分析计算中,而storm区别于hadoop,用在实时的流式计算中,被广泛用来 ...
[转载] Kafka+Storm+HDFS整合实践
转载自http://www.tuicool.com/articles/NzyqAn 在基于Hadoop平台的很多应用场景中,我们需要对数据进行离线和实时分析,离线分析可以很容易地借助于Hive来实现统 ...
Flume+Kafka+Storm+Hbase+HDSF+Poi整合
Flume+Kafka+Storm+Hbase+HDSF+Poi整合需求: 针对一个网站,我们需要根据用户的行为记录日志信息,分析对我们有用的数据. 举例:这个网站www.hongten.com(当 ...
kafka+storm+hbase
kafka+storm+hbase实现计算WordCount. (1)表名:wc (2)列族:result (3)RowKey:word (4)Field:count 1.解决: (1)第一步:首先准 ...
flume-ng+Kafka+Storm+HDFS 实时系统搭建
转自:http://www.tuicool.com/articles/mMrQnu7 一直以来都想接触Storm实时计算这块的东西,最近在群里看到上海一哥们罗宝写的Flume+Kafka+Storm ...
大数据架构：flume-ng+Kafka+Storm+HDFS 实时系统组合
http://www.aboutyun.com/thread-6855-1-1.html 个人观点:大数据我们都知道hadoop,但并不都是hadoop.我们该如何构建大数据库项目.对于离线处理,ha ...
[转]flume-ng+Kafka+Storm+HDFS 实时系统搭建
http://blog.csdn.net/weijonathan/article/details/18301321 一直以来都想接触Storm实时计算这块的东西,最近在群里看到上海一哥们罗宝写的Flu ...
Logstash读取Kafka数据写入HDFS详解
强大的功能,丰富的插件,让logstash在数据处理的行列中出类拔萃通常日志数据除了要入ES提供实时展示和简单统计外,还需要写入大数据集群来提供更为深入的逻辑处理,前边几篇ELK的文章介绍过利用lo ...

随机推荐

[转] 深刻理解Python中的元类(metaclass)
非常详细的一篇深入讲解Python中metaclass的文章,感谢伯乐在线-bigship翻译及作者,转载收藏. 本文由伯乐在线 - bigship 翻译.未经许可,禁止转载!英文出处:stacko ...
[阿里云部署] Ubuntu+Flask+Nginx+uWSGI+Mysql搭建阿里云Web服务器
部署地址:123.56.7.181 Ubuntu+Flask+Nginx+uWSGI+Mysql搭建阿里云Web服务器这个标题就比之前的"ECS服务器配置Web环境的全过程及参考资料&qu ...
永中DCS文档转换服务其它产品对比
一.利用DCOM配置直接操作Office文件作用:读取文件内容,导出Html文件优势:免费劣势:1.服务器上必须安装Office软件 2.配置麻烦,正如微软所说,读取Office不是这么干的. ...
【转】千万不要在JS中使用连等赋值操作
原文链接千万不要在JS中使用连等赋值操作目录前言赋值顺序? 连续赋值能拆开写么? 后记前言文章标题这句话原本是在国外某JavaScript规范里看到的,当时并没有引起足够的重视,直到最 ...
Serverless无服务应用架构纵横谈
Serverless无服务应用架构纵横谈一.Serverless是啥自从互联网兴起以来,Server就成了网络的核心部件.所以围绕Server的生意圈,也发展得如火如荼. 从最早的电信托管,到虚拟 ...
javassist：字节码编辑器工具
简介: javassist是一款可以在运行时生成字节码的工具,可以通过它来构造一个新的class对象.method对象,这个class是运行时生成的.可以通过简短的几行代码就可以生成一个新的class ...
Natural Hazards 隐私政策
隐私政策本应用尊重并保护所有使用服务用户的个人隐私权.为了给您提供更准确.更有个性化的服务,本应用会按照本隐私权政策的规定使用和披露您的个人信息.但本应用将以高度的勤勉.审慎义务对待这些信息.除本隐 ...
Jsoup（一）Jsoup详解（官方）
一.Jsoup概述 1.1.简介 jsoup 是一款Java 的HTML解析器,可直接解析某个URL地址.HTML文本内容.它提供了一套非常省力的API, 可通过DOM,CSS以及类似于jQu ...
小白的Python之路 day1
Python之路,Day1 - Python基础1 本节内容 Python介绍发展史 Python 2 or 3? 一. Python介绍 python的创始人为吉多·范罗苏姆(Guido van ...
jvm内存回收诡异现象
在知乎上看到一篇提问,于是做了个实验帮助他解答,这里整理成一篇文章分享一下. 先看代码如下代码: /** * Created on 2017/12/16. * * -verbose:gc -XX:+U ...

Kafka+Storm写入Hbase和HDFS

Kafka+Storm写入Hbase和HDFS的更多相关文章

随机推荐

热门专题