kafka-sparkstreaming---学习1】的更多相关文章

环境 虚拟机:VMware 10 Linux版本:CentOS-6.5-x86_64 客户端:Xshell4 FTP:Xftp4 jdk1.8 scala-2.10.4(依赖jdk1.8) spark-1.6 从kafka消费消息的偏移量存储到ZK 或者 mysql 或者 hbase,进行主动管理. 以下举例通过ZK进行存储管理: package manageoffset; import java.util.Map; import kafka.common.TopicAndPartition;…
环境 虚拟机:VMware 10 Linux版本:CentOS-6.5-x86_64 客户端:Xshell4 FTP:Xftp4 jdk1.8 scala-2.10.4(依赖jdk1.8) spark-1.6 一.receiver模式 1.receiver模式理解在SparkStreaming程序运行起来后,Executor中会有receiver tasks接收kafka推送过来的数据.数据会被持久化,默认级别为MEMORY_AND_DISK_SER_2,这个级别也可以修改.receiver t…
环境 虚拟机:VMware 10 Linux版本:CentOS-6.5-x86_64 客户端:Xshell4 FTP:Xftp4 jdk1.8 scala-2.10.4(依赖jdk1.8) spark-1.6 一.SparkStreaming简介SparkStreaming是流式处理框架,是Spark API的扩展,支持可扩展.高吞吐量.容错的实时数据流处理,实时数据的来源可以是:Kafka, Flume, Twitter, ZeroMQ或者TCP sockets,并且可以使用高级功能的复杂算子…
第1章 Spark Streaming概述 1.1 Spark Streaming是什么 Spark Streaming用于流式数据的处理.Spark Streaming支持的数据输入源很多,例如:Kafka.Flume.Twitter.ZeroMQ和简单的TCP套接字等等.数据输入后可以用Spark的高度抽象原语如:map.reduce.join.window等进行运算.而结果也能保存在很多地方,如HDFS,数据库等. 和Spark基于RDD的概念很相似,Spark Streaming使用离散…
1) --conf spark.dynamicAllocation.enabled=false 如果正在使用的是CDH的Spark,修改这个配置为false:开源的Spark版本则默认是false. 当为true时,即使指定了num-executors个数,spark-streaming应用也会占用整个集群的资源.   2) --conf spark.streaming.concurrentJobs=10 这个配置项的默认值为1,代表着新的batch过来之后只能在队列中等待之前的batch执行完…
每个公司想要进行数据分析或数据挖掘,收集日志.ETL都是第一步的,今天就讲一下如何实时地(准实时,每分钟分析一次)收集日志,处理日志,把处理后的记录存入Hive中,并附上完整实战代码 1. 整体架构 思考一下,正常情况下我们会如何收集并分析日志呢? 首先,业务日志会通过Nginx(或者其他方式,我们是使用Nginx写入日志)每分钟写入到磁盘中,现在我们想要使用Spark分析日志,就需要先将磁盘中的文件上传到HDFS上,然后Spark处理,最后存入Hive表中,如图所示: 我们之前就是使用这种方式…
下载安装地址:http://kafka.apache.org/downloads.html  原文链接:http://www.jasongj.com/2015/01/02/Kafka深度解析 Kafka主要术语直观解释 BrokerKafka集群包含一个或多个服务器,这种服务器被称为broker Topic每条发布到Kafka集群的消息都有一个类别,这个类别被称为topic.(物理上不同topic的消息分开存储,逻辑上一个topic的消息虽然保存于一个或多个broker上但用户只需指定消息的to…
====常用开源分布式消息系统 *集群:多台机器组成的系统叫集群. *ActiveMQ还是支持JMS的一种消息中间件. *阿里巴巴metaq,rocketmq都有kafka的影子. *kafka的动态扩容目前是通过zookeeper来完成的. ====kafka定义及使用背景 是一个分布式消息系统,由Linkedln使用Scala编写,用作Linkedln的活动流(Activity Stream) 和运营数据处理管道(Pipeline)的基础,具有高水平扩展和高吞吐量 应用领域:已经被多家不同类…
====Kafka消费者模型 参考博客:http://www.tuicool.com/articles/fI7J3m --分区消费模型 分区消费架构图 图中kafka集群有两台服务器(Server),每台服务器有2个分区(Patition),共4个分区. 由四个消费者实例(Consumer)来消费4个分区. 当然,Consumer1不一定对应Patition1,但是必须建立1对1的对应关系. 分区消费伪代码描述 --组(Group)消费模型 组消费架构图 途中有两个服务器Server1和Serv…
环境 虚拟机:VMware 10 Linux版本:CentOS-6.5-x86_64 客户端:Xshell4 FTP:Xftp4 jdk1.8 scala-2.10.4(依赖jdk1.8) spark-1.6 一.output operation算子1.foreachRDD:必须对抽取出来的RDD执行action类算子,代码才能执行. (1.1)foreachRDD可以拿到DStream中的RDD (1.2)foreachRDD call方法内,拿到的RDD的算子外的代码在Driver端执行.可…