Spark简介：

Spark是UC Berkeley AMP lab开发的一个集群计算的框架，类似于Hadoop，但有很多的区别。最大的优化是让计算任务的中间结果可以存储在内存中，不需要每次都写入HDFS，更适用于需要迭代的MapReduce算法场景中，可以获得更好的性能提升。

例如一次排序测试中，对100TB数据进行排序，Spark比Hadoop快三倍，并且只需要十分之一的机器。Spark集群目前最大的可以达到8000节点，处理的数据达到PB级别，在互联网企业中应用非常广泛。

这里整理5个Spark的应用实例，希望对Spark学习者能够有所帮助~

【使用 Spark 进行流量日志分析】

日志在计算机系统中是一个非常广泛的概念，任何程序都有可能输出日志：操作系统内核、各种应用服务器等等。日志包含很多有用的信息，例如访问者的 IP、访问的时间、访问的目标网页、来源的地址以及访问者所使用的客户端的 UserAgent 信息等，分析日志能帮助企业营销做出决策。

这个项目介绍如何用 Spark 分析日志，开始介绍了日志的分类，然后从日志不断简化数据，最终只留下4 个字段，最后以手机号标准，分别按照，上行流量，下行流量，报告时间戳进行倒序排序，希望学完本节课，能帮助您理解学会运用 Spark 去处理复杂日志分析。

【大数据带你挖掘打车的秘籍】

出租车是我们生活中经常乘坐的一种交通工具，但打车难的问题也限制了我们更好地利用这种交通方式。在哪些地方出租车更容易打到？在什么时候更容易打到出租车？该项目基于某市的出租车行驶轨迹数据，带你学习如何应用Spark SQL和机器学习相关技巧，并且通过数据可视化手段展现分析结果。

过程图：

【Spark 实现黑名单实时过滤】

这个项目主要讲解 Spark 的 RDD 操作，让您对 Spark 算子的特性快速了解。通过演示案例实时黑名单过滤，让您切身体会到 RDD 的强大功能，然后学以致用。

【Spark流式计算电商商品关注度】

该项目使用Scoket来模拟用户浏览商品产生实时数据，数据包括用户当前浏览的商品以及浏览商品的次数和停留时间和是否收藏该商品。使用Spark Streaming构建实时数据处理系统，来计算当前电商平台最受人们关注的商品是哪些。适合有一定的Java编程基础以及一定得Spark知识，了解Streaming的工作机制的同学学习

效果图：

【使用 Spark 和 D3.js 分析航班大数据】

该项目通过一个航班数据分析实例来学习 Spark 综合技巧和数据可视化技术。在航班数据分析实验中，可以学习到如何使用 OpenRefine 进行简单的数据清洗，以及如何通过 Spark 提供的 DataFrame、 SQL 和机器学习框架等工具，对航班起降的记录数据进行分析，尝试找出造成航班延误的原因，以及对航班延误情况进行预测。在数据可视化实验中，可以学习到 D3.js 中的数据读取、插值、元素选取、属性设置等 API 的用法。

效果图：

最后：

以上5个Spark实例教程希望对你有所帮助，更多Spark教程，点击这里即可查看~

5个Spark应用实例的更多相关文章

【原创 Hadoop&Spark 动手实践 6】Spark 编程实例与案例演示
[原创 Hadoop&Spark 动手实践 6]Spark 编程实例与案例演示 Spark 编程实例和简易电影分析系统的编写目标: 1. 掌握理论:了解Spark编程的理论基础 2. 搭建 ...
Spark Streaming实例
Spark Streaming实例分析 2015-02-02 21:00 4343人阅读评论(0) 收藏举报分类: spark(11) 转载地址:http://www.aboutyun.co ...
Spark Job-Stage-Task实例理解
Spark Job-Stage-Task实例理解基于一个word count的简单例子理解Job.Stage.Task的关系,以及各自产生的方式和对并行.分区等的联系: 相关概念 Job:Job是由 ...
Spark使用实例
1.介绍 Spark是基于Hadoop的大数据处理框架,相比较MapReduce,Spark对数据的处理是在本地内存中进行,中间数据不需要落地,因此速度有很大的提升.而MapReduce在map阶段和 ...
Spark记录-实例和运行在Yarn
#运行实例 #./bin/run-example SparkPi 10 #./bin/spark-shell --master local[2] #./bin/pyspark --master l ...
Spark源码系列（八）Spark Streaming实例分析
这一章要讲Spark Streaming,讲之前首先回顾下它的用法,具体用法请参照<Spark Streaming编程指南>. Example代码分析 val ssc = )); // 获 ...
spark streaming 实例
spark-streaming读hdfs,统计文件中单词数量,并写入mysql package com.yeliang; import java.sql.Connection; import java ...
Spark GraphX实例(1)
Spark GraphX是一个分布式的图处理框架.社交网络中,用户与用户之间会存在错综复杂的联系,如微信.QQ.微博的用户之间的好友.关注等关系,构成了一张巨大的图,单机无法处理,只能使用分布式图处理 ...
朴素贝叶斯算法原理及Spark MLlib实例(Scala/Java/Python)
朴素贝叶斯算法介绍: 朴素贝叶斯法是基于贝叶斯定理与特征条件独立假设的分类方法. 朴素贝叶斯的思想基础是这样的:对于给出的待分类项,求解在此项出现的条件下各个类别出现的概率,在没有其它可用信息下,我 ...

随机推荐

ORM跨表查询问题
环境准备: 表结构 from django.db import models # Create your models here. class Publisher(models.Model): id ...
python3之编码详解
一,python2与python3的区别 1)python2可以不用括号() python3必须加括号 2)python2中有range()有序列表,xrange()生成器 python3中只有ran ...
MySQL 之单表查询
一.简单查询 -- 创建表 DROP TABLE IF EXISTS `person`; CREATE TABLE `person` ( `id` int(11) NOT NULL AUTO_INCR ...
CentOS7(linux) 通过服务名查询安装目录
#ps aux|grep nginx root 1231 0.0 0.0 46336 956 ? Ss 04:21 0:00 nginx: master process /usr/sbin/nginx ...
NLP任务：给定一句话，找出这句话中你想要的关键词，包括起始结束索引
在实际的nlp实际任务中,你有一大堆的人工标注的关键词,来新的一句话,找出这句话中的关键词,以便你以后使用,那如何来做呢? 1)用到正则的 finditer()方法,返回你匹配的关键词的迭代对象,包含 ...
MySQL8.0安装连接Navicat的坑
刚在官网装好MySQL8.0后,我的cmd识别不了启动数据库的指令需要cd到MySQL的bin目录配置mysql mysqld --install mysqld --remove mysql -u ...
Artistic Style 3.1 A Free, Fast, and Small Automatic Formatter for C, C++, C++/CLI, Objective‑C, C#, and Java Source Code
Artistic Style - Index http://astyle.sourceforge.net/ Artistic Style 3.1 A Free, Fast, and Small Aut ...
nginx-upstream-bio/nio/netty-zuul2-apigateway-openresty-orange-lua-docker
upstream_addr等到走了一些弯路,才发现nginx的upstream本来就有一个upstream_addr的模块,一下子我觉得找到了方向,不过看这个变量的说明,发现它主要用在记录log上面, ...
[dpdk] SDK编译配置
前言: dpdk-16.07.2 与内核Linux-3.10.0-514.6.1.el7.x86_64 编译的时候有个关于kni的错误 CC [M] /root/src/thirdparty/dpd ...
python之路(转载)
Python之路 Python生产环境部署(fastcgi,uwsgi) Django 缓存.队列(Memcached.redis.RabbitMQ) Python(九) Python ...

5个Spark应用实例