为什么是kafka(二)

spark streaming 整合kafka(二)

转载:https://www.iteblog.com/archives/1326.html 和基于Receiver接收数据不一样,这种方式定期地从Kafka的topic+partition中查询最新的偏移量,再根据定义的偏移量范围在每个batch里面处理数据.当作业需要处理的数据来临时,spark通过调用Kafka的简单消费者API读取一定范围的数据.这个特性目前还处于试验阶段,而且仅仅在Scala和Java语言中提供相应的API. 和基于Receiver方式相比,这种方式主要有一些几个优点:…

回答几个网友提出的问题,不清楚的能够看上一篇内容. 1. kafka的删除策略应该怎么配置?为了提升性能.我是不是应该1小时删除一次消费过的数据. 全然能够依据磁盘大小配置.仅仅要磁盘足够用,全然不是必需删除的那么着急.Kafka的吞吐量不会由于数据量的增长而减少.由于读写数据时,kafka全然是顺序的,仅仅记录offset.时间复杂度是O(1).我以前測试过上T的数据,全然不受影响. 反倒是数据删除的太快,easy造成数据丢失. 2. 消息发送一直失败.到达了指定重试次数怎么处理? cli…

Kafka(二） —— Server端设计原理

整理架构 kafka confluence kafka官方文档中文翻译-设计消息设计 /** * 消息类 * * @author Michael Fang * @since 2019-11-14 */ public class Message implements Serializable{ // 2字节 private short magic; // 2字节 private short codecKlassOrdinal; // 1字节 private boolean codecEnable…

Kafka学习笔记

一.Kafka使用背景 1. Kafka的定义是一个分布式消息系统,由LinkedIn使用Scala编写,用作LinkedIn的活动流(Activity Stream)和运营数据处理管道(Pipeline)的基础,具有高水平和高吞吐量. 2. ActiveMQ.RabbitMQ.Kafka 二.Kafka的相关概念 1. AMQP协议 producer---push--->broker <---pull--- consumer 一些基本的概念 (1)消费者(consumer):从消息队列中…

使用sparksql往kafka推送数据

一.相关配置参数 1.同级目录resource文件夹下配置 brokers_list=kafkaxxx02broker01:9092,kafkaxxx02broker02:9092,kafkaxxx02broker03:9092 2.topic: last_member_info 3.流程从hive表中读取相关字段,封装成json格式,抛kafka 二.相关代码(scala) package kafka import java.io.InputStream import java.text.S…

Apache kafka v1.0.0 部署文档

简介: Apache Kafka 是一个 Scala 语言编写的可扩展.分布式.高性能的容错消息发布.订阅系统. 官网地址:http://kafka.apache.org 中文教程:http://www.orchome.com/kafka/index 下载地址:http://mirror.bit.edu.cn/apache/kafka/1.0.0/kafka_2.11-1.0.0.tgz ( Scala 2.11 is recommended ) Java版本:jdk-8u111-linux-x…

八、Kafka总结

一 Kafka概述 1.1 Kafka是什么在流式计算中,Kafka一般用来缓存数据,Storm通过消费Kafka的数据进行计算. 1)Apache Kafka是一个开源消息系统,由Scala写成.是由Apache软件基金会开发的一个开源消息系统项目. 2)Kafka最初是由LinkedIn开发,并于2011年初开源.2012年10月从Apache Incubator毕业.该项目的目标是为处理实时数据提供一个统一.高通量.低等待的平台. 3)Kafka是一个分布式消息队列.Kafka对消息保存…

五 akka streams kafka

(转载 https://doc.akka.io/docs/akka-stream-kafka/current/home.html) 一: Akka Streams Kafka, also known as Reactive Kafka, is an Akka Streams connector for Apache Kafka. 二:Producer:…

Kafka学习笔记4--Kafka消费者的客户端（PHP）开发

一.准备工作虽然 Kafka 是用 Java/Scala 语言编写的,但这不妨碍它对多语言的支持.可以在 Kafka 官网的 CLIENTS 查看 Kafka 支持的语言,其中包括 C/C++.Python.Go 等语言. PHP 操作 Kafka 需要安装 librdkafka 库和 kafka 的 PHP 扩展. 1.安装 librdkafka 库 git clone https://github.com/edenhill/librdkafka.git ./configure make s…

【Kafka】监控及运维——kafka-eagle

目录简单介绍概述安装部署一.环境要求二.下载源码包并解压三.准备数据库四.修改配置文件五.配置环境变量六.启动kafka-eagle 七.成功运行简单介绍概述 Kafka-eagle是一个为了简化开发者和服务工程师维护Kafka集群工作的监控管理工具.这个管理工具可以很容易地发现分布在集群中的哪些topic分布不均匀,或者是分区在整个集群分布不均匀的的情况.它支持管理多个集群.选择副本.副本重新分配以及创建Topic.同时,这个管理工具还可以快速浏览整个集群. 安装部署一…

消息队列——Kafka基本使用及原理分析

文章目录一.什么是Kafka 二.Kafka的基本使用 1. 单机环境搭建及命令行的基本使用 2. 集群搭建 3. Java API的基本使用三.Kafka原理浅析 1. topic和partition的存储 2. 消息分段及索引查找原理 3. 日志清理策略 4. 副本高可用机制 5. 数据同步原理 6. 消息分发策略 7. 消费原理一.什么是Kafka Kafka也是一款消息队列中间件,与ActiveMQ和RabbitMQ不同的是,它不是基于JMS和AMQP规范开发的,而是提供了类似JM…

Kafka原理分析之基础篇

原创文章,转载请标注.https://www.cnblogs.com/boycelee/p/14728638.html 一.Kafka二.解决问题异步处理应用解耦流量削峰三.特性读写效率网络传输并发能力持久化能力可靠性水平扩展四.基本概念消息&批次消息批次主题&分区日志Log基本概念Log保存与压缩日志保存日志压缩Broker副本生产者消费者消费者组消息传递模式Kafka架构概图五.核心特性详解消费者单消费者组多消费者组心跳机制再平衡机制再平衡触发条件避免再平衡消费者判"死&qu…

java消息中间件的使用与简介

一.为什么要使用消息中间件消息中间件就是可以省去繁琐的步骤,直达目的,怎么讲呢,就是比如你想很多人,知道你的动态,而知道的人可能手机没电,可能手机信号不好,可能手机不在服务区,或者看的人比较忙,看的时间不固定,这样的时候,你发送的消息怎么会让其看到呢,就是建立一个微信公众号,可以满足用户随时看到你想让其看到的消息,这就是中间件的一种应用方式,生活中老师讲课的黑板,家中的电视机都是中间件的一种体现方式. 消息中间件的好处 1.解耦 2.异步 3.横向扩展 :就是可以通过一个中间件进行一个功能多次…

storm-kafka编程指南

目录 storm-kafka编程指南一.原理及关键步骤介绍 (一)使用storm-kafka的关键步骤 1.创建ZkHosts 2.创建KafkaConfig 3.设置MultiScheme 4.创建Spout 5.建立拓扑: (二)当拓扑出错时,如何从上一次的kafka位置继续处理消息 (三)结果写回kafka 二.完整示例 (一)简介 (二)单词拆分 (三)定义拓扑行为 1.定义kafka的相关配置 2.定义拓扑,进行单词统计后,写入一个分布式内存中. 3.从分布式内存中读取结果并进行输出…

Kafka设计解析（二）- Kafka High Availability （上）

本文转发自Jason’s Blog,原文链接 http://www.jasongj.com/2015/04/24/KafkaColumn2 摘要 Kafka在0.8以前的版本中,并不提供High Availablity机制,一旦一个或多个Broker宕机,则宕机期间其上所有Partition都无法继续提供服务.若该Broker永远不能再恢复,亦或磁盘故障,则其上数据将丢失.而Kafka的设计目标之一即是提供数据持久化,同时对于分布式系统来说,尤其当集群规模上升到一定程度后,一台或者多台机器宕机的…

【原创】kafka server源代码分析(二)

十四.AbstractFetcherManager.scala 该scala定义了两个case类和一个抽象类.两个case类很简单: 1. BrokerAndFectherId:封装了一个broker和一个fetcher的数据结构 2. BrokerAndInitialOffset:封装了broker和初始位移的一个数据结构该scala中最核心的还是那个抽象类:AbstractFetcherManager.它维护了一个获取线程的map,主要保存broker id + fetcher id对应的…

（二）Kafka动态增加Topic的副本(Replication)

(二)Kafka动态增加Topic的副本(Replication) 1. 查看topic的原来的副本分布 [hadoop@sdf-nimbus-perf ~]$ le-kafka-topics.sh --describe --topic http_zhixin_line1 Topic:http_zhixin_line1 PartitionCount:3 ReplicationFactor:1 Configs: Topic: http_zhixin_line1 Partition: 0 Leade…

kafka原理和实践（二）spring-kafka简单实践

系列目录 kafka原理和实践(一)原理:10分钟入门 kafka原理和实践(二)spring-kafka简单实践 kafka原理和实践(三)spring-kafka生产者源码 kafka原理和实践(四)spring-kafka消费者源码 kafka原理和实践(五)spring-kafka配置详解 kafka原理和实践(六)总结升华 =========正文分割线==================== 作为一个MQ做基本的功能自然就是消息的生产和消费,本章以XML配置的方式实现消息的生产和消费.…

zookeeper+kafka集群安装之二

zookeeper+kafka集群安装之二此为上一篇文章的续篇, kafka安装需要依赖zookeeper, 本文与上一篇文章都是真正分布式安装配置, 可以直接用于生产环境. zookeeper安装参考: http://blog.csdn.net/ubuntu64fan/article/details/26678877 首先了解几个kafka中的概念: kafka是一个消息队列服务器,服务称为broker, 消息发送者称为producer, 消息接收者称为consumer; 通常我们部署多个b…

Kafka（二）CentOS7.5搭建Kafka2.11-1.1.0集群与简单测试

一.下载下载地址: http://kafka.apache.org/downloads.html 我这里下载的是Scala 2.11对应的 kafka_2.11-1.1.0.tgz 二.kafka安装集群规划 IP 节点名称 Kafka Zookeeper Jdk Scala 192.168.100.21 node21 Kafka Zookeeper Jdk Scala 192.168.100.22 node22 Kafka Zookeeper Jdk Scala 192.168.10…

Kafka技术内幕读书笔记之（四）新消费者——新消费者客户端（二）

消费者拉取消息消费者创建拉取请求的准备工作,和生产者创建生产请求的准备工作类似,它们都必须和分区的主副本交互.一个生产者写入的分区和消费者分配的分区都可能有多个,同时多个分区的主副本有可能在同一个节点上 . 为了减少客户端和服务端集群的网络连接,客户端并不是以分区为粒度和服务端交互,而是以服务端节点为粒度 .如果分区的主副本在同一个节点上,应当在客户端先把数据按照节点整理好,把属于同一个节点的多个分区作为一个请求发送出去 . 一个消费者可以允许同时向多个主副本节点发送请求,这个请求包括属于这个…

[Big Data - Kafka] Kafka设计解析（二）：Kafka High Availability （上）

Kafka在0.8以前的版本中,并不提供High Availablity机制,一旦一个或多个Broker宕机,则宕机期间其上所有Partition都无法继续提供服务.若该Broker永远不能再恢复,亦或磁盘故障,则其上数据将丢失.而Kafka的设计目标之一即是提供数据持久化,同时对于分布式系统来说,尤其当集群规模上升到一定程度后,一台或者多台机器宕机的可能性大大提高,对Failover要求非常高.因此,Kafka从0.8开始提供High Availability机制.本文从Data Replic…

Kafka学习之路（二）Kafka的架构

一.Kafka的架构如上图所示,一个典型的Kafka集群中包含若干Producer(可以是web前端产生的Page View,或者是服务器日志,系统CPU.Memory等),若干broker(Kafka支持水平扩展,一般broker数量越多,集群吞吐率越高),若干Consumer Group,以及一个Zookeeper集群.Kafka通过Zookeeper管理集群配置,选举leader,以及在Consumer Group发生变化时进行rebalance.Producer使用push模式将消息发…

Kafka设计解析（二十三）关于Kafka监控方案的讨论

转载自 huxihx,原文链接关于Kafka监控方案的讨论目前Kafka监控方案看似很多,然而并没有一个“大而全”的通用解决方案.各家框架也是各有千秋,以下是我了解到的一些内容: 一.Kafka manager Github地址: https://github.com/yahoo/kafka-manager. 这款监控框架的好处在于监控内容相对丰富,既能够实现broker级常见的JMX监控(比如出入站流量监控),也能对consumer消费进度进行监控(比如lag等).另外用户还能在页面上直接…

Kafka设计解析（二十二）Flink + Kafka 0.11端到端精确一次处理语义的实现

转载自 huxihx,原文链接 [译]Flink + Kafka 0.11端到端精确一次处理语义的实现本文是翻译作品,作者是Piotr Nowojski和Michael Winters.前者是该方案的实现者. 原文地址是An Overview of End-to-End Exactly-Once Processing in Apache Flink® (with Apache Kafka, too!). 目录一.Flink应用的EOS二.Flink实现EOS应用三.Flink中实现两阶段提交…

Kafka设计解析（二十一）Kafka水位(high watermark)与leader epoch的讨论

转载自 huxihx,原文链接 Kafka水位(high watermark)与leader epoch的讨论本文主要讨论0.11版本之前Kafka的副本备份机制的设计问题以及0.11是如何解决的.简单来说,0.11之前副本备份机制主要依赖水位(或水印)的概念,而0.11采用了leader epoch来标识备份进度.后面我们会详细讨论两种机制的差异.不过首先先做一些基本的名词含义解析. 水位或水印(watermark)一词,也可称为高水位(high watermark),通常被用在流式处理领域…

大数据入门第二十四天——SparkStreaming（二）与flume、kafka整合

前一篇中数据源采用的是从一个socket中拿数据,有点属于“旁门左道”,正经的是从kafka等消息队列中拿数据! 主要支持的source,由官网得知如下: 获取数据的形式包括推送push和拉取pull 一.spark streaming整合flume 1.push的方式更推荐的是pull的拉取方式引入依赖: <dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-streami…

大数据入门第十七天——storm上游数据源之kafka详解（二）常用命令

一.kafka常用命令 1.创建topic bin/kafka-topics. --replication-factor --zookeeper mini1: // 如果配置了PATH可以省略相关命令路径,相关命令参数暂不深入,字面意思也可以大概推断.后续给出完整参数参考. 2.查看所有topic bin/kafka-topics. 3.生产者发送消息 bin/kafka-console-producer. --topic topic_1 4.消费者消费消息 bin/kafka-console-…

Kafka 温故(二)：Kafka的基本概念和结构

一.Kafka中的核心概念 Producer: 特指消息的生产者Consumer :特指消息的消费者Consumer Group :消费者组,可以并行消费Topic中partition的消息Broker:缓存代理,Kafa 集群中的一台或多台服务器统称为 broker.Topic:特指 Kafka 处理的消息源(feeds of messages)的不同分类.Partition:Topic 物理上的分组,一个 topic 可以分为多个 partition,每个 partition 是一个有序的队…