1.概述

　　目前，随着大数据的浪潮，Kafka 被越来越多的企业所认可，如今的Kafka已发展到0.10.x，其优秀的特性也带给我们解决实际业务的方案。对于数据分流来说，既可以分流到离线存储平台（HDFS），离线计算平台（Hive仓库），也可以分流实时流水计算（Storm，Spark）等，同样也可以分流到海量数据查询（HBase），或是及时查询（ElasticSearch）。而今天笔者给大家分享的就是Kafka 分流数据到 ElasticSearch。

2.内容

　　我们知道，ElasticSearch是有其自己的套件的，简称ELK，即ElasticSearch，Logstash以及Kibana。ElasticSearch负责存储，Logstash负责收集数据来源，Kibana负责可视化数据，分工明确。想要分流Kafka中的消息数据，可以使用Logstash的插件直接消费，但是需要我们编写复杂的过滤条件，和特殊的映射处理，比如系统保留的`_uid`字段等需要我们额外的转化。今天我们使用另外一种方式来处理数据，使用Kafka的消费API和ES的存储API来处理分流数据。通过编写Kafka消费者，消费对应的业务数据，将消费的数据通过ES存储API，通过创建对应的索引的，存储到ES中。其流程如下图所示：

　　上图可知，消费收集的数据，通过ES提供的存储接口进行存储。存储的数据，这里我们可以规划，做定时调度。最后，我们可以通过Kibana来可视化ES中的数据，对外提供业务调用接口，进行数据共享。

3.实现

　　下面，我们开始进行实现细节处理，这里给大家提供实现的核心代码部分，实现代码如下所示：

3.1 定义ES格式

　　我们以插件的形式进行消费，从Kafka到ES的数据流向，只需要定义插件格式，如下所示：

{

    "job": {

        "content": {

            "reader": {

                "name": "kafka",

                "parameter": {

                    "topic": "kafka_es_client_error",

                    "groupid": "es2",

                    "bootstrapServers": "k1:9094,k2:9094,k3:9094"

                },

                "threads": 6

            },

            "writer": {

                "name": "es",

                "parameter": {

                    "host": [

                        "es1:9300,es2:9300,es3:9300"

                    ],

                    "index": "client_error_%s",

                    "type": "client_error"

                }

            }

        }

    }

}

　　这里处理消费存储的方式，将读和写的源分开，配置各自属性即可。

3.2 数据存储

　　这里，我们通过每天建立索引进行存储，便于业务查询，实现细节如下所示：

public class EsProducer {

    private final static Logger LOG = LoggerFactory.getLogger(EsProducer.class);

    private final KafkaConsumer<String, String> consumer;

    private ExecutorService executorService;

    private Configuration conf = null;

    private static int counter = 0;

    public EsProducer() {

        String root = System.getProperty("user.dir") + "/conf/";

        String path = SystemConfigUtils.getProperty("kafka.x.plugins.exec.path");

        conf = Configuration.from(new File(root + path));

        Properties props = new Properties();

        props.put("bootstrap.servers", conf.getString("job.content.reader.parameter.bootstrapServers"));

        props.put("group.id", conf.getString("job.content.reader.parameter.groupid"));

        props.put("enable.auto.commit", "true");

        props.put("auto.commit.interval.ms", "1000");

        props.put("key.deserializer", "org.apache.kafka.common.serialization.StringDeserializer");

        props.put("value.deserializer", "org.apache.kafka.common.serialization.StringDeserializer");

        consumer = new KafkaConsumer<String, String>(props);

        consumer.subscribe(Arrays.asList(conf.getString("job.content.reader.parameter.topic")));

    }

    public void execute() {

        executorService = Executors.newFixedThreadPool(conf.getInt("job.content.reader.threads"));

        while (true) {

            ConsumerRecords<String, String> records = consumer.poll(100);

            if (null != records) {

                executorService.submit(new KafkaConsumerThread(records, consumer));

            }

        }

    }

    public void shutdown() {

        try {

            if (consumer != null) {

                consumer.close();

            }

            if (executorService != null) {

                executorService.shutdown();

            }

            if (!executorService.awaitTermination(10, TimeUnit.SECONDS)) {

                LOG.error("Shutdown kafka consumer thread timeout.");

            }

        } catch (InterruptedException ignored) {

            Thread.currentThread().interrupt();

        }

    }

    class KafkaConsumerThread implements Runnable {

        private ConsumerRecords<String, String> records;

        public KafkaConsumerThread(ConsumerRecords<String, String> records, KafkaConsumer<String, String> consumer) {

            this.records = records;

        }

        @Override

        public void run() {

            String index = conf.getString("job.content.writer.parameter.index");

            String type = conf.getString("job.content.writer.parameter.type");

            for (TopicPartition partition : records.partitions()) {

                List<ConsumerRecord<String, String>> partitionRecords = records.records(partition);

                for (ConsumerRecord<String, String> record : partitionRecords) {

                    JSONObject json = JSON.parseObject(record.value());

                    List<Map<String, Object>> list = new ArrayList<>();

                    Map<String, Object> map = new HashMap<>();

                    index = String.format(index, CalendarUtils.timeSpan2EsDay(json.getLongValue("_tm") * 1000L));

                    if (counter < 10) {

                        LOG.info("Index : " + index);

                        counter++;

                    }

                    for (String key : json.keySet()) {

                        if ("_uid".equals(key)) {

                            map.put("uid", json.get(key));

                        } else {

                            map.put(key, json.get(key));

                        }

                        list.add(map);

                    }

                    EsUtils.write2Es(index, type, list);

                }

            }

        }

    }

}

　　这里消费的数据源就处理好了，接下来，开始ES的存储，实现代码如下所示：

public class EsUtils {

	private static TransportClient client = null;

	static {

		if (client == null) {

			client = new PreBuiltTransportClient(Settings.EMPTY);

		}

		String root = System.getProperty("user.dir") + "/conf/";

		String path = SystemConfigUtils.getProperty("kafka.x.plugins.exec.path");

		Configuration conf = Configuration.from(new File(root + path));

		List<Object> hosts = conf.getList("job.content.writer.parameter.host");

		for (Object object : hosts) {

			try {

				client.addTransportAddress(new InetSocketTransportAddress(InetAddress.getByName(object.toString().split(":")[0]), Integer.parseInt(object.toString().split(":")[1])));

			} catch (Exception e) {

				e.printStackTrace();

			}

		}

	}

	public static void write2Es(String index, String type, List<Map<String, Object>> dataSets) {

		BulkRequestBuilder bulkRequest = client.prepareBulk();

		for (Map<String, Object> dataSet : dataSets) {

			bulkRequest.add(client.prepareIndex(index, type).setSource(dataSet));

		}

		bulkRequest.execute().actionGet();

		// if (client != null) {

		// client.close();

		// }

	}

	public static void close() {

		if (client != null) {

			client.close();

		}

	}

}

　　这里，我们利用BulkRequestBuilder进行批量写入，减少频繁写入率。

4.调度

　　存储在ES中的数据，如果不需要长期存储，比如：我们只需要存储及时查询数据一个月，对于一个月以前的数据需要清除掉。这里，我们可以编写脚本直接使用Crontab来进行简单调用即可，脚本如下所示：

#!/bin/sh

# <Usage>: ./delete_es_by_day.sh kafka_error_client logsdate 30 </Usage>
echo "<Usage>: ./delete_es_by_day.sh kafka_error_client logsdate 30 </Usage>"



index_name=$

daycolumn=$

savedays=$

format_day=$

if [ ! -n "$savedays" ]; then

  echo "Oops. The args is not right,please input again...."

  exit

fi

if [ ! -n "$format_day" ]; then

   format_day='%Y%m%d'

fi

sevendayago=`date -d "-${savedays} day " +${format_day}`

curl -XDELETE "es1:9200/${index_name}/_query?pretty" -d "

{

        "query": {

                "filtered": {

                        "filter": {

                                "bool": {

                                        "must": {

                                                "range": {

                                                        "${daycolumn}": {

                                                                "from": null,

                                                                "to": ${sevendayago},

                                                                "include_lower": true,

                                                                "include_upper": true

                                                        }

                                                }

                                        }

                                }

                        }

                }

        }

}"

echo "Finished."

然后，在Crontab中进行定时调度即可。

5.总结

　　这里，我们在进行数据写入ES的时候，需要注意，有些字段是ES保留字段，比如`_uid`，这里我们需要转化，不然写到ES的时候，会引发冲突导致异常，最终写入失败。

6.结束语

　　这篇博客就和大家分享到这里，如果大家在研究学习的过程当中有什么问题，可以加群进行讨论或发送邮件给我，我会尽我所能为您解答，与君共勉

Elasticsearch 与 Kafka 整合剖析的更多相关文章

flume与kafka整合
flume与kafka整合前提: flume安装和测试通过,可参考:http://www.cnblogs.com/rwxwsblog/p/5800300.html kafka安装和测试通过,可参考: ...
5 kafka整合storm
本博文的主要内容有 .kafka整合storm .storm-kafka工程 .storm + kafka的具体应用场景有哪些? 要想kafka整合storm,则必须要把这个storm-kafk ...
【转】Spark Streaming和Kafka整合开发指南
基于Receivers的方法这个方法使用了Receivers来接收数据.Receivers的实现使用到Kafka高层次的消费者API.对于所有的Receivers,接收到的数据将会保存在Spark ...
SparkStreaming+Kafka整合
SparkStreaming+Kafka整合 1.需求使用SparkStreaming,并且结合Kafka,获取实时道路交通拥堵情况信息. 2.目的对监控点平均车速进行监控,可以实时获取交通拥堵情 ...
Spring Kafka整合Spring Boot创建生产者客户端案例
每天学习一点点编程PDF电子书.视频教程免费下载:http://www.shitanlife.com/code 创建一个kafka-producer-master的maven工程.整个项目结构如下: ...
【SpringBoot】搜索框架ElasticSearch介绍和整合SpringBoot
========================12章搜索框架ElasticSearch介绍和整合SpringBoot ============================= 加入小D课堂技术交 ...
当Elasticsearch遇见Kafka
欢迎大家前往腾讯云+社区,获取更多腾讯海量技术实践干货哦~ 本文由michelmu发表于云+社区专栏 Elasticsearch作为当前主流的全文检索引擎,除了强大的全文检索能力和高扩展性之外,对多种 ...
ambari下的flume和kafka整合
1.配置flume #扫描指定文件配置 agent.sources = s1 agent.channels = c1 agent.sinks = k1 agent.sources.s1.type=ex ...
Flume+Kafka整合
脚本生产数据---->flume采集数据----->kafka消费数据------->storm集群处理数据日志文件使用log4j生成,滚动生成! 当前正在写入的文件在满足一定的数 ...

随机推荐

java复习(4)---数字处理类
java本身自带一些封装好的类方便数字问题的处理,review下方便以后使用 DecimalFormat类可格式化数字格式,控制输出格式 Math类提供三角函数.指数函数.取整函数.最大最小函数. ...
C#事物
执行ADO.NET事务包含四个步骤,分别为: ①调用SqlConnection对象的BeginTransaction()方法,(只调用这个方法前,要打开数据库连接,否则将会出现异常) 创建一个SqlT ...
OpenGL 的空间变换（下）：空间变换
通过本文的上篇 OpenGL 的空间变换(上):矩阵在空间几何中的应用 ,我们了解到矩阵的基础概念.并且掌握了矩阵在空间几何中的应用.接下来,我们将结合矩阵来了解 OpenGL 的空间变换. 在使用 ...
redis multi exec
multi(),返回一个redis对象,并进入multi-mode模式,一旦进入multi-mode模式,以后调用的所有方法都会返回相同的对象,直到exec()方法被调用. phpredis是php的 ...
matlab笔记（1）元胞结构cell2mat和num2cell
摘自于:https://zhidao.baidu.com/question/1987862234171281467.html https://www.zybang.com/question/dcb09 ...
Linux 按时间批量删除文件（删除N天前文件）
需要根据时间删除这个目录下的文件,/home/lifeccp/dicom/studies,清理掉20天之前的无效数据. 可以使用下面一条命令去完成: -name "*.*" -ex ...
[UWP]实用的Shape指南
在UWP UI系统中,使用Shape是绘制2D图形最简单的方式,小到图标,大到图表都用到Shape的派生类,可以说有举足轻重的地位.幸运的是从Silverlight以来Shape基本没有什么大改动,简 ...
[刷题]算法竞赛入门经典(第2版) 4-7/UVa509 - RAID!
书上具体所有题目:http://pan.baidu.com/s/1hssH0KO 代码:(Accepted,0 ms) //UVa509 - RAID! #include<iostream> ...
JAVA引用和垃圾回收
1.强引用(StrongReference) 强引用是使用最普遍的引用.如果一个对象具有强引用,那垃圾回收器绝不会回收它.如下: 1 Object o=new Object(); // 强引用 ...
nodejs6下使用koa2
koa2里面使用ES7的语法,如async.await所以需要运行在node7.6之后:但在node7.6之前也可以利用babel是的koa2可以运行. 首先项目中安装babel,和babel的几个模 ...

Elasticsearch 与 Kafka 整合剖析