Flink 学习 项目地址:https://github.com/zhisheng17/flink-learning/ 博客:http://www.54tianzhisheng.cn/tags/Flink/ 项目结构 ├── README.md ├── flink-learning-cep ├── flink-learning-common ├── flink-learning-connectors │   ├── flink-learning-connectors-activemq │   ├…
Flink对于流处理架构的意义十分重要,Kafka让消息具有了持久化的能力,而处理数据,甚至穿越时间的能力都要靠Flink来完成. 在Streaming-大数据的未来一文中我们知道,对于流式处理最重要的两件事,正确性,时间推理工具.而Flink对两者都有非常好的支持. Flink对于正确性的保证 对于连续的事件流数据,由于我们处理时可能有事件暂未到达,可能导致数据的正确性受到影响,现在采取的普遍做法的通过高延迟的离线计算保证正确性,但是也牺牲了低延迟. Flink的正确性体现在计算窗口的定义符合…
前言 在上一篇文章 你公司到底需不需要引入实时计算引擎? 中我讲解了日常中常见的实时需求,然后分析了这些需求的实现方式,接着对比了实时计算和离线计算.随着这些年大数据的飞速发展,也出现了不少计算的框架(Hadoop.Storm.Spark.Flink).在网上有人将大数据计算引擎的发展分为四个阶段. 第一代:Hadoop 承载的 MapReduce 第二代:支持 DAG(有向无环图)框架的计算引擎 Tez 和 Oozie,主要还是批处理任务 第三代:支持 Job 内部的 DAG(有向无环图),以…
一.Flink概述 1.基础简介 Flink是一个框架和分布式处理引擎,用于对无界和有界数据流进行有状态计算.Flink被设计在所有常见的集群环境中运行,以内存执行速度和任意规模来执行计算.主要特性包括:批流一体化.精密的状态管理.事件时间支持以及精确一次的状态一致性保障等.Flink不仅可以运行在包括YARN.Mesos.Kubernetes在内的多种资源管理框架上,还支持在裸机集群上独立部署.在启用高可用选项的情况下,它不存在单点失效问题. 这里要说明两个概念: 边界:无边界和有边界数据流,…
身处大数据圈近5年了,在我的概念里一直认为大数据最牛的两个东西是Hadoop和Spark.18年下半年的时候,我突然发现身边很多大数据牛人都是研究学习Flink,甚至连Spark都大有被冷落抛弃的感觉.何以至此,Flink是个什么鬼? Apache Flink(简称Flink)是一个分布式大数据处理引擎,可对有限数据流和无限数据流进行有状态计算.可部署在各种集群环境,对各种大小的数据规模进行快速计算. 大数据生态圈很庞大,优秀的框架和组件就笔者了解的不下20个,为何Flink如此受宠?那么多人而…
随着大数据的发展,人们对大数据的处理要求也越来越高,原有的批处理框架MapReduce适合离线计算,却无法满足实时性要求较高的业务,如实时推荐.用户行为分析等. Spark Streaming是建立在Spark上的实时计算框架,通过它提供的丰富的API.基于内存的高速执行引擎,用户可以结合流式.批处理和交互试查询应用.本文将详细介绍Spark Streaming实时计算框架的原理与特点.适用场景. Spark Streaming实时计算框架 Spark是一个类似于MapReduce的分布式计算框…
目       录 1.      概述... 2 2.      平台演示... 2 3.      设备容器新版本介绍... 2 4.      全局数据计算及预警平台... 3 5.      设备数据计算及预警... 4 6.      独立数据点的预警... 5 1.   概述 这次升级主要对iNeuKernel设备容器全面进行改版和升级,以及增加对设备数据和独立数据点进行计算及预警. iNeuKernel是iNeuOS内核设备运行容器,是以物理设备或传感器为核心构建的框架,可以随意挂…
zw·10倍速大数据与全内存计算 zw全内存10倍速计算blog,早就在博客园机器视觉栏目发过,大数据版的一直挂着,今天抽空补上. 在<零起点,python大数据与量化交易>目录中 http://blog.sina.com.cn/s/blog_7100d4220102vlpa.html 我们已经介绍了多种:大数据与Python十倍速性能优化 软加速:矢量优先 软加速:cpython SSD加速大法 KBD全内存数据库 Gpu终极加速方案 zw全内存10倍速计算,是根据实践,在工程中提出了一种全…
基于 Flink 1.9 讲解的专栏,涉及入门.概念.原理.实战.性能调优.系统案例的讲解. 专栏介绍 扫码下面专栏二维码可以订阅该专栏 首发地址:http://www.54tianzhisheng.cn/2019/11/15/flink-in-action/ 专栏地址:https://gitbook.cn/gitchat/column/5dad4a20669f843a1a37cb4f 专栏亮点 全网首个使用最新版本 Flink 1.9 进行内容讲解(该版本更新很大,架构功能都有更新),领跑于目…
一. 1.对比:离线计算和实时计算 离线计算:MapReduce,批量处理(Sqoop-->HDFS--> MR ---> HDFS) 实时计算:Storm和Spark Sparking,数据实时性(Flume ---> Kafka ---> 流式计算 ---> Redis) 2.常见的实时计算(流式计算)代表 (1)Apache Storm (2)Spark Streaming (3)Apache Flink:既可以流式计算,也可以离线计算 二.Storm的体系结构…