大数据为什么要选择Spark

Spark是一个基于内存计算的开源集群计算系统,目的是更快速的进行数据分析。 Spark由加州伯克利大学AMP实验室Matei为主的小团队使用Scala开发开发,其核心部分的代码只有63个Scala文件,非常轻量级。 Spark 提供了与 Hadoop 相似的开源集群计算环境,但基于内存和迭代优化的设计,Spark 在某些工作负载表现更优秀。

在2014上半年,Spark开源生态系统得到了大幅增长,已成为大数据领域最活跃的开源项目之一,当下已活跃在Hortonworks、IBM、 Cloudera、MapR和Pivotal等众多知名大数据公司。那么Spark究竟以什么吸引了如此多的关注,这里我们看向Dzone上的6个总结。

1. 轻量级快速处理。着眼大数据处理,速度往往被置于第一位,我们经常寻找能尽快处理我们数据的工具。Spark允 许Hadoop集群中的应用程序在内存中以100倍的速度运行,即使在磁盘上运行也能快10倍。Spark通过减少磁盘IO来达到性能提升,它们将中间处 理数据全部放到了内存中。Spark使用了RDD(Resilient Distributed Dataset)的理念,这允许它可以透明的内存中存储数据,只在需要时才持久化到磁盘。这种做法大大的减少了数据处理过程中磁盘的读写,大幅度的降低了 所需时间。

2. 易于使用,Spark支持多语言。Spark允许Java、Scala及Python,这允许开发者在自己熟悉的语言环境下进行工作。它自带了80多个高等级操作符,允许在shell中进行交互式查询。

3. 支持复杂查询。在简单的“map”及“reduce”操作之外,Spark还支持SQL查询、流式查询及复杂查询,比如开箱即用的机器学习机图算法。同时,用户可以在同一个工作流中无缝的搭配这些能力。

4. 实时的流处理。对比MapReduce只能处理离线数据,Spark支持实时的流计算。Spark依赖 Spark Streaming对数据进行实时的处理,当然在YARN之后Hadoop也可以借助其他的工具进行流式计算。对于 Spark Streaming,Cloudera的评价是:

简单:轻量级且具备功能强大的API,Sparks Streaming允许你快速开发流应用程序。
    容错:不像其他的流解决方案,比如Storm,无需额外的代码和配置,Spark Streaming就可以做大量的恢复和交付工作。
    集成:为流处理和批处理重用了同样的代码,甚至可以将流数据保存到历史数据中。

5. 可以与Hadoop和已存Hadoop数据整合。Spark可以独立的运行,除了可以运行在当下的YARN集群管理之外,它还可以读取已有的任何Hadoop数据。这是个非常大的优势,它可以运行在任何Hadoop数据源上,比如HBase、HDFS等。这个特性让用户可以轻易迁移已有Hadoop应用,如果合适的话。

6. 活跃和无限壮大的社区。Spark起源于2009年,当下已有超过50个机构250个工程师贡献过代码,和去年六月相比,代码行数几乎扩大三倍,这是个令人艳羡的增长。

经管之家(原人大经济论坛)推出CDA大数据分析师脱产就业班培训(http://cda.pinggu.org/bigdata-jy.html), 以大数据分析师为目标,从数据分析基础、JAVA语言入门和linux操作系统入门 知识学起,系统介绍Hadoop、HDFS、MapReduce和Hbase等理论知识和hadoop的生态环境,详细演示hadoop三种模式的安装配 置,以案例的形式,重点讲解基于mahout项目的大数据分析之聚类、分类以及主题推荐。重点培养基于Hadoop架构的大数据分析思想及架构设计,通过 演示实际的大数据 分析案例,使学员能在较短的时间内理解大数据分析的真实价值,掌握如何使用hadoop架构应用于大数据分析过程,使学员能有一个快速提升成为兼有理论和 实战的大数据分析师,从而更好地适应当前互联网经济背景下对大数据分析师需求的旺盛的就业形势。

北京现场&远程直播

时间

课 程

大纲简 介

第一阶段

系统基础篇 15天

1.开学典礼及大数据概述 1天

2.linux操作系统及 2天

3.unbuntu系统介绍 1天

4.JAVA基础  5天

5.python基础 4天

6.hadoop单机、伪分布、集群搭建 2天

第二阶段

hadoop生态实战篇 15天

1.HDFS深入剖析 1天

2.MapReduce基础理论及高级编程实战 3天

3.Pig原理,部署与Pig Latin语言,应用案例 1天

4.Hive体系架构、安装与HiveQL及Hive应用案例 3天

5.Zookeeper与分布式系统开发 1天

6.HBase体系架构,集群部署,管理 2天

7.HBase数据模型,实战案例建模剖析 3天

8.strom入门及部署 1天

第三阶段

数据分析理论篇 15天

1.SPSS软件入门 1天

2.数据分析之统计基础(使用软件为SPSS) 4天

3.R软件操作入门 1天

4.数据挖掘之聚类(使用软件为R) 3天

5.数据挖掘之分类(使用软件为R) 4天

6.数据挖掘之关联规则(使用软件为R)2天

第四阶段

大数据分析案例篇 15天

1.大数据可视化技术及工具简介 1天

2.大数据背景下隐私保护及技术介绍 1天

3.大数据的分析方法--SMART模型介绍 1天

4.基于hadoop+Mahout的8个大数据分析案例实战 2天

5.Spark基础原理、集群安装并运行Spark 2天

6.Spark SQL 原理及数据整合应用 2天

7.Spark GraphX图计算方法应用 1天

8.Spark 推荐应用(ALS方法,FP-growth方法)2天

9.Spark 数据建模流程(logistics回归,决策树,朴素贝叶斯方法)3天

第五阶段

毕业篇 6天

1.毕业设计 5天

2.毕业典礼 1天

大数据为什么要选择Spark的更多相关文章

  1. 大数据入门第二十二天——spark(一)入门与安装

    一.概述 1.什么是spark 从官网http://spark.apache.org/可以得知: Apache Spark™ is a fast and general engine for larg ...

  2. 老李分享:大数据框架Hadoop和Spark的异同 1

    老李分享:大数据框架Hadoop和Spark的异同   poptest是国内唯一一家培养测试开发工程师的培训机构,以学员能胜任自动化测试,性能测试,测试工具开发等工作为目标.如果对课程感兴趣,请大家咨 ...

  3. 单表千亿电信大数据场景,使用Spark+CarbonData替换Impala案例

    [背景介绍] 国内某移动局点使用Impala组件处理电信业务详单,每天处理约100TB左右详单,详单表记录每天大于百亿级别,在使用impala过程中存在以下问题: 详单采用Parquet格式存储,数据 ...

  4. 大数据开发,Hadoop Spark太重?你试试esProc SPL

    摘要:由于目标和现实的错位,对很多用户来讲,Hadoop成了一个在技术.应用和成本上都很沉重的产品. 本文分享自华为云社区<Hadoop Spark太重,esProc SPL很轻>,作者: ...

  5. 老李分享:大数据框架Hadoop和Spark的异同

    poptest是国内唯一一家培养测试开发工程师的培训机构,以学员能胜任自动化测试,性能测试,测试工具开发等工作为目标.如果对课程感兴趣,请大家咨询qq:908821478,咨询电话010-845052 ...

  6. [转载] 2 分钟读懂大数据框架 Hadoop 和 Spark 的异同

    转载自https://www.oschina.net/news/73939/hadoop-spark-%20difference 谈到大数据,相信大家对Hadoop和Apache Spark这两个名字 ...

  7. 大数据基础知识问答----spark篇,大数据生态圈

    Spark相关知识点 1.Spark基础知识 1.Spark是什么? UCBerkeley AMPlab所开源的类HadoopMapReduce的通用的并行计算框架 dfsSpark基于mapredu ...

  8. 大数据计算框架Hadoop, Spark和MPI

    转自:https://www.cnblogs.com/reed/p/7730338.html 今天做题,其中一道是 请简要描述一下Hadoop, Spark, MPI三种计算框架的特点以及分别适用于什 ...

  9. 2分钟读懂大数据框架Hadoop和Spark的异同

    转自:https://www.cnblogs.com/reed/p/7730313.html 谈到大数据,相信大家对Hadoop和Apache Spark这两个名字并不陌生.但我们往往对它们的理解只是 ...

随机推荐

  1. create custom launcher icon 细节介绍

    create custom launcher icon 是创建你的Android app的图标 点击下一步的时候,出现的界面就是创建你的Android的图标 Foreground: ” Foregro ...

  2. 安全HTTPS-全面详解对称加密,非对称加密,数字签名,数字证书和HTTPS【下】

    1.  HTTPS 1.1. 什么是HTTPS HTTPS(HypertextTransfer Protocol Secure)即安全的HTTP.HTTPS的安全基础是安全套接层(Secure Soc ...

  3. 一个关于JTabel的DefaultCellEditor渲染很棒的例子

    import java.awt.Color; import java.awt.event.WindowAdapter; import java.awt.event.WindowEvent;   imp ...

  4. 网易云课堂_艾叔:零基础一站式C语言|C程序设计精讲_章节12:指针

    课时63指针操作数组 二维数组 #include <stdio.h> #include <stdlib.h> int main() { int age[2][4] = { 1, ...

  5. 【简单项目框架一】Fragment实现的底部导航

    流行的应用的导航一般分为两种,一种是底部导航,一种是侧边栏. 我所做的项目涉及到比较多的是底部导航,今天我就把项目中使用的一种实现方式分享一下. 主要实现思路是:在一个Activity里面底部添加四个 ...

  6. 【Android Studio】studio学习系列(一) 从eclipse导入project

    Android google官方出的IDE android studio 一直都在走bate版本号,尽管如此,总认为它比ADT更加靠谱.所以我也想用studio来开发滴.可项目一直都是eclipse的 ...

  7. oracle em命令行配置及界面按钮乱码问题解决方法

    一.配置EM dbconsole db [oracle@rusky ~]$ lsnrctl start [oracle@rusky ~]$ emctl start dbconsoleTZ set to ...

  8. SecureCRT中文显示乱码的解决方法

    注:本文出自:http://riching.iteye.com/blog/349754 最近开始用SecureCRT登陆linux系统,由于是新手,很多问题不清楚,碰到显示中文乱码的问题,困扰了好几天 ...

  9. UVA 1622 Robot

    题意: 给出n*m个格子,每个格子里有一个机器人,可以执行东南西北四种指令,但是移动出格就会爆炸.给出四种指令的个数,求最多完成多少次指令. 分析: 首先对输入数据进行处理,使得cw≥ce.cn≥cs ...

  10. Android简单登录系统

    很长时间没有写博客了,最近一直在写android for gis方面的项目.不过这篇博客就不写gis方面的了,今天刚刚做的一个简单的android登录系统.数据库是android自带的sqlite,s ...