【慕课网实战】Spark Streaming实时流处理项目实战笔记二之铭文升级版

铭文一级：

第二章：初识实时流处理

需求：统计主站每个(指定)课程访问的客户端、地域信息分布
地域：ip转换 Spark SQL项目实战
客户端：useragent获取 Hadoop基础课程
==> 如上两个操作：采用离线(Spark/MapReduce)的方式进行统计

实现步骤：
课程编号、ip信息、useragent
进行相应的统计分析操作：MapReduce/Spark

项目架构
日志收集：Flume
离线分析：MapReduce/Spark
统计结果图形化展示

问题
小时级别
10分钟
5分钟
1分钟
秒级别

如何解决？？？ ==》实时流处理框架

离线计算与实时计算的对比
1) 数据来源
离线： HDFS 历史数据数据量比较大
实时：消息队列(Kafka)，实时新增/修改记录过来的某一笔数据

2）处理过程
离线： MapReduce： map + reduce
实时： Spark(DStream/SS)

3) 处理速度
离线：慢
实时：快速

4）进程
离线：启动+销毁
实时： 7*24

第三章：分布式日志收集框架Flume

现状分析：见图

如何解决我们的数据从其他的server上移动到Hadoop之上？？？
shell cp hadoop集群的机器上， hadoop fs -put ..... /

===> Flume

铭文二级：

第二章：初识实时流处理

实时流处理框架的产生背景：时效性高数据量大

实时流处理与离线处理的对比=>

1.数据来源 2.处理过程 3.处理速度 4.进程（MapReduce进程启动与销毁需要消耗大量资源而且实时性跟不上）

实时流框架对比=>

Storm（真正的来一个处理一个）、Spark Streaming（时间间隔小批次处理）、IBM Stream、Yahoo！S4、LinkedIn kafka、Flink（可离线可实时）

实时流处理流程=>

Webapp->WebServer->Flume->Kafka->Spark/Storm->RDBMS/NoSQL->可视化展示

　　　产生　　采集清洗分析入库可视化

实时流处理在企业中的应用：电信行业（实时监控流量是否超出）电商行业

第三章：分布式日志收集框架Flume

传统从Server到Hadoop处理上存在的问题=>

1.难以监控 2.IO的读写开销大 3.容错率高，负载均衡差 4.高延时，需隔一段时间启动

【慕课网实战】Spark Streaming实时流处理项目实战笔记二之铭文升级版的更多相关文章

【慕课网实战】Spark Streaming实时流处理项目实战笔记十之铭文升级版
铭文一级: 第八章:Spark Streaming进阶与案例实战 updateStateByKey算子需求:统计到目前为止累积出现的单词的个数(需要保持住以前的状态) java.lang.Illega ...
【慕课网实战】Spark Streaming实时流处理项目实战笔记七之铭文升级版
铭文一级: 第五章:实战环境搭建 Spark源码编译命令:./dev/make-distribution.sh \--name 2.6.0-cdh5.7.0 \--tgz \-Pyarn -Phado ...
【慕课网实战】Spark Streaming实时流处理项目实战笔记十四之铭文升级版
铭文一级: 第11章 Spark Streaming整合Flume&Kafka打造通用流处理基础 streaming.conf agent1.sources=avro-sourceagent1 ...
【慕课网实战】Spark Streaming实时流处理项目实战笔记十六之铭文升级版
铭文一级: linux crontab 网站:http://tool.lu/crontab 每一分钟执行一次的crontab表达式: */1 * * * * crontab -e */1 * * * ...
【慕课网实战】Spark Streaming实时流处理项目实战笔记十五之铭文升级版
铭文一级:[木有笔记] 铭文二级: 第12章 Spark Streaming项目实战行为日志分析: 1.访问量的统计 2.网站黏性 3.推荐 Python实时产生数据访问URL->IP信息- ...
【慕课网实战】Spark Streaming实时流处理项目实战笔记十二之铭文升级版
铭文一级: ======Pull方式整合 Flume Agent的编写: flume_pull_streaming.conf simple-agent.sources = netcat-sources ...
【慕课网实战】Spark Streaming实时流处理项目实战笔记十一之铭文升级版
铭文一级: 第8章 Spark Streaming进阶与案例实战黑名单过滤访问日志 ==> DStream20180808,zs20180808,ls20180808,ww ==> ( ...
【慕课网实战】Spark Streaming实时流处理项目实战笔记九之铭文升级版
铭文一级: 核心概念:StreamingContext def this(sparkContext: SparkContext, batchDuration: Duration) = { this(s ...
【慕课网实战】Spark Streaming实时流处理项目实战笔记八之铭文升级版
铭文一级: Spark Streaming is an extension of the core Spark API that enables scalable, high-throughput, ...

随机推荐

AnguarJS——第10章路由
第10章路由一个应用是由若个视图组合而成的,根据不同的业务逻辑展示给用户不同的视图,路由则是实现这一功能的关键. 10.1 SPA SPA(Single Page Application)指的是通 ...
python+selenium环境安装
目前 selenium 版本已经升级到 3.7了,网上的大部分教程是基于 2.x写的,所以在学习前先要弄清楚版本号,这点非常重要.本系列依然以 selenium2 为基础, 目前 selenium3 ...
div指令和mul指令
div是除法指令,使用div做除法时需要注意: 1)除数:有8位和16位两种,在一个寄存器或者内存单元中 2)被除数:默认存放在AX或DX和AX中.如果除数为8位,被除数则为16位,默认在AX中存放: ...
docker-ce-17.09 仓库的创建与使用
docker仓库是集中存放镜像的地方,注册服务器是存放仓库的具体服务器,每个服务器上可以有多个仓库,每个仓库下面有多个镜像. 一.查找仓库中镜像 > docker search centos 二 ...
SqlServer中的数据库分类
1.系统数据库(中央管理机构):用来管理用户创建用户数据的数据库. 系统数据库中包含如下数据库: (1)master:记录了sqlserver中所有系统级别的信息,包括所有的登录账户.系统配置,还有其 ...
ubuntu启动进程笔记
--防止程序随着web终端一起被关闭方法: 1.Screen -ls 查看当前进程2.Screen -S XX XX是自定义的进程名回车完进入这个进程,在这个进程里面可以启动程序 3.正常返回: ...
ABP框架使用Mysql数据库
参考文档:https://github.com/ABPFrameWorkGroup/AbpDocument2Chinese/blob/master/Markdown/Abp/9.4ABP%E5%9F% ...
DevExpress如何实现皮肤的添加及本地化
DevExpress.XtraBars.Helpers.SkinHelper类允许您填充现有RibbonGalleryBarItem或任意菜单(PopupMenu或BarSubItem)项目对应的De ...
PAT 1049 数列的片段和(20)（代码+思路分析）
1049 数列的片段和(20)(20 分) 给定一个正数数列,我们可以从中截取任意的连续的几个数,称为片段.例如,给定数列{0.1, 0.2, 0.3, 0.4},我们有(0.1) (0.1, 0.2 ...
Github上删除仓库
1.先进入到工程里面,然后选择“Settings” 2.将页面拉到最下面,然后点击“Delete this repository”,接着在弹出的窗口中输入需要删除的仓库名. 弹出的窗口如下:

【慕课网实战】Spark Streaming实时流处理项目实战笔记二之铭文升级版

【慕课网实战】Spark Streaming实时流处理项目实战笔记二之铭文升级版的更多相关文章

随机推荐

热门专题