kafka-stream数据清洗

1、数据清洗业务类LogProcessor

package com.css.kafka.kafka_stream;

import org.apache.kafka.streams.processor.Processor;

import org.apache.kafka.streams.processor.ProcessorContext;

/**

 * 数据清洗*/

public class LogProcessor implements Processor<byte[], byte[]>{

    private ProcessorContext context;

    //初始化

    public void init(ProcessorContext context) {

        //传输

        this.context = context;

    }

    //具体业务逻辑

    public void process(byte[] key, byte[] value) {

        //1.拿到消息数据，转成字符串

        String message = new String(value);

        //2.如果包含-  去除

        if (message.contains("-")) {

            //3.把- 去掉 之后去掉左侧数据

            message = message.split("-")[1];

        }

        //4.发送数据

        context.forward(key, message.getBytes());

    }

    //释放资源

    public void close() {

    }

}

2、Application类

package com.css.kafka.kafka_stream;

import java.util.Properties;

import org.apache.kafka.streams.KafkaStreams;

import org.apache.kafka.streams.StreamsConfig;

import org.apache.kafka.streams.Topology;

import org.apache.kafka.streams.processor.Processor;

import org.apache.kafka.streams.processor.ProcessorSupplier;

/**

 * 需求：对数据进行清洗操作

 *

 * 思路：wo-henshuai  把-和wo清洗掉*/

public class Application {

    public static void main(String[] args) {

        //1.定义主题 发送到 另外一个主题中 数据清洗

        String oneTopic = "t1";

        String twoTopic = "t2";

        //2.设置属性

        Properties prop = new Properties();

        prop.put(StreamsConfig.APPLICATION_ID_CONFIG, "logProcessor");

        prop.put(StreamsConfig.BOOTSTRAP_SERVERS_CONFIG, "192.168.146.132:9092,192.168.146.133:9092,192.168.146.134:9092");

        //3.实例对象

        StreamsConfig config = new StreamsConfig(prop);

        //4.流计算 拓扑

        Topology builder = new Topology();

        //5.定义kafka组件数据源

        builder.addSource("Source", oneTopic).addProcessor("Processor", new ProcessorSupplier<byte[], byte[]>() {

            public Processor<byte[], byte[]> get() {

                return new LogProcessor();

            }

            //从哪里来

        }, "Source")

        //到哪里去

        .addSink("Sink", twoTopic, "Processor");

        //6.实例化kafkaStream

        KafkaStreams kafkaStreams = new KafkaStreams(builder, prop);

        kafkaStreams.start();

    }

}

3、运行Application类的main方法

4、在hd09-1机器上创建主题t1

bin/kafka-topics.sh --zookeeper hd09-1:2181 --create --replication-factor 3 --partition 1 --topic t1

5、在hd09-2机器上启动消费者

bin/kafka-console-consumer.sh --bootstrap-server hd09-2:9092 --topic t2 --from-beginning --consumer.config config/consumer.properties

6、在hd09-1机器上启动生产者

bin/kafka-console-producer.sh --broker-list hd09-1:9092 --topic t1

7、此时在hd09-1机器kafka生产者上输入 wo-henshuai，在hd09-2消费者机器上会显示henshuai，即完成了数据清洗，如下图。

kafka-stream数据清洗的更多相关文章

告别Kafka Stream，让轻量级流处理更加简单
一说到数据孤岛,所有技术人都不陌生.在 IT 发展过程中,企业不可避免地搭建了各种业务系统,这些系统独立运行且所产生的数据彼此独立封闭,使得企业难以实现数据共享和融合,并形成了"数据孤岛&q ...
《Kafka Stream》调研：一种轻量级流计算模式
原文链接:https://yq.aliyun.com/articles/58382 摘要: 流计算,已经有Storm.Spark,Samza,包括最近新起的Flink,Kafka为什么再自己做一套流计 ...
流式处理的新贵 Kafka Stream - Kafka设计解析（七）
原创文章,转载请务必将下面这段话置于文章开头处. 本文转发自技术世界,原文链接 http://www.jasongj.com/kafka/kafka_stream/ Kafka Stream背景 Ka ...
Kafka设计解析（七）- Kafka Stream
本文介绍了Kafka Stream的背景,如Kafka Stream是什么,什么是流式计算,以及为什么要有Kafka Stream.接着介绍了Kafka Stream的整体架构,并行模型,状态存储,以 ...
Kafka Stream
Kafka Stream是Apache Kafka从0.10版本引入的一个新Feature(当前:1.0.0-rc0,参见:https://github.com/apache/kafka/releas ...
Kafka设计解析（七）Kafka Stream
转载自技术世界,原文链接 Kafka设计解析(七)- Kafka Stream 本文介绍了Kafka Stream的背景,如Kafka Stream是什么,什么是流式计算,以及为什么要有Kafka ...
流式计算新贵Kafka Stream设计详解--转
原文地址:https://mp.weixin.qq.com/s?__biz=MzA5NzkxMzg1Nw==&mid=2653162822&idx=1&sn=8c4611436 ...
kafka stream 低级别的Processor API动态生成拓扑图
public class KafkaSream { public static void main(String[] args) { Map<String, Object> props = ...
流式计算（二）-Kafka Stream
前面说了Java8的流,这里还说流处理,既然是流,比如水流车流,肯定得有流的源头,源可以有多种,可以自建,也可以从应用端获取,今天就拿非常经典的Kafka做源头来说事,比如要来一套应用日志实时分析框架 ...
kafka（五）流式处理 kafka stream
参考文档: http://www.infoq.com/cn/articles/kafka-analysis-part-7?utm_source=infoq&utm_campaign=user_ ...

随机推荐

[转]C++中的三种继承public，protected，private
链接:http://www.cnblogs.com/BeyondAnyTime/archive/2012/05/23/2514964.html
RP2837 IN1-IN2 对应关系 2路ＤＩ
RP2837 IN1-IN2 对应关系: IN1 ARM-IO2 PA16 IN2 ARM-IO6 PA4 root@sama5d3-linux:~ echo 16 > /sy ...
在linux跑xenomai vkworks skin的测试
1 代码 ############################################################## /* * Copyright (C) 2001,2002,200 ...
TCP协议格式
TCP协议协议格式 0 16 31 |16位源端口 | 16位目标端口| | 32位序号 | | 32位确认序号 | |4位首部长度|保留(6位)|URG|ACK|PSH|RST|SYN|FIN|1 ...
Sql Server 语句集合
-- 判断数据库表是否存在 select count(*) from sysobjects where id=OBJECT_ID('tableName'); -- 返回 1存在,0不存在 -- 判断表 ...
大数据(13) - Spark的安装部署与简单使用
一 .Spark概述官网:http://spark.apache.org 1. 什么是spark Spark是一种快速.通用.可扩展的大数据分析引擎,2009年诞生于加州大学伯克利分校 ...
GitHub搭建个人网站续
来源:http://www.cnblogs.com/crazyacking/p/4678976.html http://www.cnblogs.com/crazyacking/category/716 ...
HDU 2159 FATE（二维全然背包）
中文题目就不用解释了就是裸的二维全然背包 d[i][j]表示消耗i忍耐杀j个怪最多可获得的经验然后就用全然背包来做了二维背包背包只是是多了一重循环 <span style=&quo ...
5个基于Linux命令行的文件下载和网站浏览工具
导读命令行是GNU/Linux中最神奇迷人的部分,它是非常强大的工具;命令行本身功能多样,多种内建或者第三方的命令行应用使得Linux变得更加健壮和强大.Linux Shell支持多种不同类型的网络 ...
smarty 总结和分析
虽然smarty现在已经废弃不用,但是它的原理我们需要了解一下,这也是TP框架的一部分原理,它把前后端分离开,这样前端只需要写静态网页,后端只需要处理数据库和php文件就可以了,phpcms的思路也大 ...

kafka-stream数据清洗

kafka-stream数据清洗的更多相关文章

随机推荐

热门专题