铭文一级:

第二章:初识实时流处理

需求:统计主站每个(指定)课程访问的客户端、地域信息分布
地域:ip转换 Spark SQL项目实战
客户端:useragent获取 Hadoop基础课程
==> 如上两个操作:采用离线(Spark/MapReduce)的方式进行统计

实现步骤:
课程编号、ip信息、useragent
进行相应的统计分析操作:MapReduce/Spark

项目架构
日志收集:Flume
离线分析:MapReduce/Spark
统计结果图形化展示

问题
小时级别
10分钟
5分钟
1分钟
秒级别

如何解决??? ==》 实时流处理框架

离线计算与实时计算的对比
1) 数据来源
离线: HDFS 历史数据 数据量比较大
实时: 消息队列(Kafka),实时新增/修改记录过来的某一笔数据

2)处理过程
离线: MapReduce: map + reduce
实时: Spark(DStream/SS)

3) 处理速度
离线: 慢
实时: 快速

4)进程
离线: 启动+销毁
实时: 7*24

第三章:分布式日志收集框架Flume

现状分析:见图

如何解决我们的数据从其他的server上移动到Hadoop之上???
shell cp hadoop集群的机器上, hadoop fs -put ..... /

===> Flume

铭文二级:

第二章:初识实时流处理

实时流处理框架的产生背景:时效性高 数据量大

实时流处理与离线处理的对比=>

1.数据来源 2.处理过程 3.处理速度 4.进程(MapReduce进程启动与销毁 需要消耗大量资源 而且实时性跟不上)

实时流框架对比=>

Storm(真正的来一个处理一个)、Spark Streaming(时间间隔小批次处理)、IBM Stream、Yahoo!S4、LinkedIn kafka、Flink(可离线可实时)

实时流处理流程=>

Webapp->WebServer->Flume->Kafka->Spark/Storm->RDBMS/NoSQL->可视化展示

    产生         采集     清洗      分析                入库                  可视化

实时流处理在企业中的应用: 电信行业(实时监控流量是否超出) 电商行业

第三章:分布式日志收集框架Flume

传统从Server到Hadoop处理上存在的问题=>

1.难以监控 2.IO的读写开销大 3.容错率高,负载均衡差 4.高延时,需隔一段时间启动

【慕课网实战】Spark Streaming实时流处理项目实战笔记二之铭文升级版的更多相关文章

  1. 【慕课网实战】Spark Streaming实时流处理项目实战笔记十之铭文升级版

    铭文一级: 第八章:Spark Streaming进阶与案例实战 updateStateByKey算子需求:统计到目前为止累积出现的单词的个数(需要保持住以前的状态) java.lang.Illega ...

  2. 【慕课网实战】Spark Streaming实时流处理项目实战笔记七之铭文升级版

    铭文一级: 第五章:实战环境搭建 Spark源码编译命令:./dev/make-distribution.sh \--name 2.6.0-cdh5.7.0 \--tgz \-Pyarn -Phado ...

  3. 【慕课网实战】Spark Streaming实时流处理项目实战笔记十四之铭文升级版

    铭文一级: 第11章 Spark Streaming整合Flume&Kafka打造通用流处理基础 streaming.conf agent1.sources=avro-sourceagent1 ...

  4. 【慕课网实战】Spark Streaming实时流处理项目实战笔记十六之铭文升级版

    铭文一级: linux crontab 网站:http://tool.lu/crontab 每一分钟执行一次的crontab表达式: */1 * * * * crontab -e */1 * * * ...

  5. 【慕课网实战】Spark Streaming实时流处理项目实战笔记十五之铭文升级版

    铭文一级:[木有笔记] 铭文二级: 第12章 Spark Streaming项目实战 行为日志分析: 1.访问量的统计 2.网站黏性 3.推荐 Python实时产生数据 访问URL->IP信息- ...

  6. 【慕课网实战】Spark Streaming实时流处理项目实战笔记十二之铭文升级版

    铭文一级: ======Pull方式整合 Flume Agent的编写: flume_pull_streaming.conf simple-agent.sources = netcat-sources ...

  7. 【慕课网实战】Spark Streaming实时流处理项目实战笔记十一之铭文升级版

    铭文一级: 第8章 Spark Streaming进阶与案例实战 黑名单过滤 访问日志 ==> DStream20180808,zs20180808,ls20180808,ww ==> ( ...

  8. 【慕课网实战】Spark Streaming实时流处理项目实战笔记九之铭文升级版

    铭文一级: 核心概念:StreamingContext def this(sparkContext: SparkContext, batchDuration: Duration) = { this(s ...

  9. 【慕课网实战】Spark Streaming实时流处理项目实战笔记八之铭文升级版

    铭文一级: Spark Streaming is an extension of the core Spark API that enables scalable, high-throughput, ...

随机推荐

  1. 队列 和 线程 之GCD dispatch

    1.dispatch_queue_create  创建队列开启异步线程(1,4,2,3) // 创建一个队列 dispatch_queue_t queue = dispatch_queue_creat ...

  2. virtaulbox docker虚拟机使用主机代理shandowsocks

    1.virtaulbox 配置NatNetwork File->Preference->network->add new nat network 2.virtaulbox 虚拟机配置 ...

  3. 8F - 采矿

    某天gameboy玩魔兽RPG.有一个任务是在一个富含金矿的圆形小岛上建一个基地,以最快的速度采集完这个小岛上的所有金矿.这个小岛上有n(0<n<1000000)个金矿,每个金矿的矿藏量是 ...

  4. json与字符串转换

    一.json转为字符串 JSON.stringify(...) 二.字符串转为json JSON.parse(...)

  5. hdu 5326(基础题) work

    http://acm.hdu.edu.cn/showproblem.php?pid=5326 一道水题,题目大意是在公司里,给出n个员工和目标人数m,然后下面的n-1行是表示员工a管理b,问在这些员工 ...

  6. spring配置遇到的问题

    1.文档根元素 "beans" 必须匹配 DOCTYPE 根 "null" 这个原因是因为我自动扫描mapping.xml的文件路径设置错误,把它设置成spri ...

  7. AppStore企业账号打包发布APP流程详解

    一.通过企业账号申请证书 1 Certificate Signing Request (CSR)文件 在Mac系统中进入“钥匙串访问”,选择“钥匙串访问”-“证书助理”-“从证书颁发机构请求证书…”, ...

  8. imaplib.error: command: SEARCH => got more than 10000 bytes

    imaplib.error: command: SEARCH => got more than 10000 bytes 使用IMAPLIB进行标记邮件状态的时候,在 typ,data=M.sea ...

  9. uuid唯一吗

    是唯一的.我在几台硬件完全相同(同一批购买的).软件也完全相同(用同一个GHOST系统安装)的电脑上试过:  不同的电脑上,wmic csproduct get uuid 获取的UUID码是不同的.另 ...

  10. 在离线安装gazebo的时候可能在运行turtlebot_gazebo的时候会出现问题

    问题显示如下 gzserver: /build/ogre-1.9-mqY1wq/ogre-1.9-1.9.0+dfsg1/OgreMain/src/OgreRenderSystem.cpp:546: ...