kafka学习(六)

　　　　　　　　　　　　用kafka构建数据管道

把kafka看着是一个数据的端点，怎么把kafka数据移到mysql,elasticSearchs 这里面介绍kafka connect API怎么样帮忙我们把数据移到我们想要的位置。

构建数据管道时需要考虑的问题

1.及时性，kafka作为一个基于流的数据平台，提供了可靠的伸缩性，多集群高可用的方案。这一点可以保证及时性。如果因为网络延迟，那么数据也不会丢失。

2.可靠性，我们要避免单点故障，和根据自己的业务情况来设置生产者和消费者的一些必要的参数。如生产者的提交方法，不完全选举，等等

3.高吞吐量和动态吞吐量。kafka使用多线程来拆分任务，最大限度利用了cpu，还支持压缩数据传输数据。

数据格式

本身支持apache Avro 序列化数据，可以是json格式自定义序列化方式。

或者转成Parquet 写入HDFS，或转成CSV写入S3

转换，

kafka在这方面只支持类型转换，这方面还是其他etl 解决方案支持比较好

安全性

kafka支持加密传输和认证授权，所以不用担心安全问题、

故障处理能力

kafka会把数据持久化在磁盘上，一般保存7天，所以不要担心数据丢失问题。

如何在connect API和客户端API之间做出选择

如果是消息生产的话那么选择客户端，来源数据一般来源用户，connect只能连接一个数据端点，但不可能是用户数据收集的入口。

如果用于传输数据，如mysql 到elasticsearch 这样选用connect API 是个不错的选择

运行connect

connect 不需要安装，本身和kafka一起安装了，所以我们只需要配置我们需要的参数即可，启动和kafka类似

bin/connect-distributed.sh config/connect-distibuted.properties

connect进程有几个重要的配置参数

bootstrap.servers 可以集群模式或者单点

group.id 具有相同group.id的worker属于同一个集群。

key.converter 和value.converter connect可以处理存储在kafka里的不用格式的数据。

有些key.converter.schema.enable 设置成true或者false来指定JSON消息是否包含schema

对应的key.converter.schema.registry.url 指定schema registry的位置 value同样。

启动之后如果需要使用mysql 那么下载jdbc和mysql 驱动包即可使用。elasticsearch也是同样。

都是操作api。

深入理解connect

连接器插件实现了connector API 负责3件事情

1.决定需要运行多少个任务

2，按照任务来拆分数据复制

3.从worker进程获取任务配置并将其传递下去。

任务

负责将数据移入或移除kafka。

worker进程

负责处理http请求，还负责保存连接器的配置，启动连接器和连接器任务，并把配置消息传递给任务。如果一个worker崩溃了，集群其他worker进程会感知到，并将原本属于这个worker的任务分配给其他进程。

connect之外的选择

Hadoop的flume elasticsearch fluentd

kafka学习(六)的更多相关文章

Kafka学习之（六）搭建kafka集群
想要搭建kafka集群,必须具备zookeeper集群,关于zookeeper集群的搭建,在Kafka学习之(五)搭建kafka集群之Zookeeper集群搭建博客有说明.需要具备两台以上装有zook ...
大数据 -- kafka学习笔记：知识点整理（部分转载）
一为什么需要消息系统 1.解耦允许你独立的扩展或修改两边的处理过程,只要确保它们遵守同样的接口约束. 2.冗余消息队列把数据进行持久化直到它们已经被完全处理,通过这一方式规避了数据丢失风险.许多 ...
kafka学习笔记：知识点整理
一.为什么需要消息系统 1.解耦: 允许你独立的扩展或修改两边的处理过程,只要确保它们遵守同样的接口约束. 2.冗余: 消息队列把数据进行持久化直到它们已经被完全处理,通过这一方式规避了数据丢失风险. ...
Hbase深入学习(六) Java操作HBase
Hbase深入学习(六) ―― Java操作HBase 本文讲述如何用hbase shell命令和hbase java api对hbase服务器进行操作. 先看以下读取一行记录hbase是如何进行工作 ...
TweenMax动画库学习(六)
目录 TweenMax动画库学习(一) TweenMax动画库学习(二) TweenMax动画库学习(三) Tw ...
Kafka学习-简介
Kafka是由LinkedIn开发的一个分布式的消息系统,使用Scala编写,它以可水平扩展和高吞吐率而被广泛使用.目前越来越多的开源分布式处理系统如Cloudera.Apache Storm.S ...
Kafka学习-入门
在上一篇kafka简介的基础之上,本篇主要介绍如何快速的运行kafka. 在进行如下配置前,首先要启动Zookeeper. 配置单机kafka 1.进入kafka解压目录 2.启动kafka bin\ ...
Kafka学习之路
一直在思考写一些什么东西作为2017年开篇博客.突然看到一篇<Kafka学习之路>的博文,觉得十分应景,于是决定搬来这“他山之石”.虽然对于Kafka博客我一向坚持原创,不过这篇来自Con ...
kafka学习2：kafka集群安装与配置
在前一篇:kafka学习1:kafka安装中,我们安装了单机版的Kafka,而在实际应用中,不可能是单机版的应用,必定是以集群的方式出现.本篇介绍Kafka集群的安装过程: 一.准备工作 1.开通Z ...

随机推荐

QByteArray与QString的互相转换
QByteArray baData; QString str = QString(baData); // 反过来转换: QByteArray by1 = str.toLatin1(); QByteAr ...
docker概述和安装
一:概述 Docker 是一个开源的应用容器引擎,让开发者可以打包他们的应用以及依赖包到一个可移植的容器中,然后发布到任何流行的Linux机器或Windows 机器上,也可以实现虚拟化,容器是完全使用 ...
Spring IOC -bean对象的生命周期详解
生命周期执行的过程如下:1) spring对bean进行实例化,默认bean是单例2) spring对bean进行依赖注入3) 如果bean实现了BeanNameAware接口,spring将bean ...
FCC 成都社区·前端周刊第 3 期
01. Chrome65 的新功能 CSS Paint API 允许使用编程方式生成图像:Server Timing API允许服务器将时间信息通过HTTP headers传递给浏览器: CSS di ...
chrome模拟慢速3G网络
谷歌调试控制台中network中可以设置,add为自定义
【NOIP2017提高组模拟12.10】神炎皇
题目神炎皇乌利亚很喜欢数对,他想找到神奇的数对. 对于一个整数对(a,b),若满足a+b<=n且a+b是ab的因子,则成为神奇的数对.请问这样的数对共有多少呢? 分析设\(gcd(a,b)= ...
sudo: pip:command not found问题解决
python3 sudo apt-get install python3-pip python2 sudo apt-get install python-pip如果还是不行,则按照下面操作原因:编译 ...
opencv加椒盐噪声
void salt(IplImage *img, int saltNum) { int x,y; int i ; unsigned char *src = NULL; src = (unsigned ...
使用webuploader组件实现大文件分片上传，断点续传
本人在2010年时使用swfupload为核心进行文件的批量上传的解决方案.见文章:WEB版一次选择多个文件进行批量上传(swfupload)的解决方案. 本人在2013年时使用plupload为核心 ...
socket编程相关阐述
一.socket初识 ①服务端 import socket server = socket.socket() server.bind(('127.0.0.1', 8080)) server.liste ...

kafka学习(六)

用kafka构建数据管道

构建数据管道时需要考虑的问题

数据格式

转换，

安全性

如何在connect API和客户端API之间做出选择

运行connect

深入理解connect

任务

connect之外的选择

kafka学习(六)的更多相关文章

随机推荐

热门专题

　　　　　　　　　　　　用kafka构建数据管道