大数据为什么要选择Spark
大数据为什么要选择Spark
Spark是一个基于内存计算的开源集群计算系统,目的是更快速的进行数据分析。 Spark由加州伯克利大学AMP实验室Matei为主的小团队使用Scala开发开发,其核心部分的代码只有63个Scala文件,非常轻量级。 Spark 提供了与 Hadoop 相似的开源集群计算环境,但基于内存和迭代优化的设计,Spark 在某些工作负载表现更优秀。
在2014上半年,Spark开源生态系统得到了大幅增长,已成为大数据领域最活跃的开源项目之一,当下已活跃在Hortonworks、IBM、 Cloudera、MapR和Pivotal等众多知名大数据公司。那么Spark究竟以什么吸引了如此多的关注,这里我们看向Dzone上的6个总结。
1. 轻量级快速处理。着眼大数据处理,速度往往被置于第一位,我们经常寻找能尽快处理我们数据的工具。Spark允 许Hadoop集群中的应用程序在内存中以100倍的速度运行,即使在磁盘上运行也能快10倍。Spark通过减少磁盘IO来达到性能提升,它们将中间处 理数据全部放到了内存中。Spark使用了RDD(Resilient Distributed Dataset)的理念,这允许它可以透明的内存中存储数据,只在需要时才持久化到磁盘。这种做法大大的减少了数据处理过程中磁盘的读写,大幅度的降低了 所需时间。
2. 易于使用,Spark支持多语言。Spark允许Java、Scala及Python,这允许开发者在自己熟悉的语言环境下进行工作。它自带了80多个高等级操作符,允许在shell中进行交互式查询。
3. 支持复杂查询。在简单的“map”及“reduce”操作之外,Spark还支持SQL查询、流式查询及复杂查询,比如开箱即用的机器学习机图算法。同时,用户可以在同一个工作流中无缝的搭配这些能力。
4. 实时的流处理。对比MapReduce只能处理离线数据,Spark支持实时的流计算。Spark依赖 Spark Streaming对数据进行实时的处理,当然在YARN之后Hadoop也可以借助其他的工具进行流式计算。对于 Spark Streaming,Cloudera的评价是:
简单:轻量级且具备功能强大的API,Sparks Streaming允许你快速开发流应用程序。
容错:不像其他的流解决方案,比如Storm,无需额外的代码和配置,Spark Streaming就可以做大量的恢复和交付工作。
集成:为流处理和批处理重用了同样的代码,甚至可以将流数据保存到历史数据中。
5. 可以与Hadoop和已存Hadoop数据整合。Spark可以独立的运行,除了可以运行在当下的YARN集群管理之外,它还可以读取已有的任何Hadoop数据。这是个非常大的优势,它可以运行在任何Hadoop数据源上,比如HBase、HDFS等。这个特性让用户可以轻易迁移已有Hadoop应用,如果合适的话。
6. 活跃和无限壮大的社区。Spark起源于2009年,当下已有超过50个机构250个工程师贡献过代码,和去年六月相比,代码行数几乎扩大三倍,这是个令人艳羡的增长。
经管之家(原人大经济论坛)推出CDA大数据分析师脱产就业班培训(http://cda.pinggu.org/bigdata-jy.html), 以大数据分析师为目标,从数据分析基础、JAVA语言入门和linux操作系统入门 知识学起,系统介绍Hadoop、HDFS、MapReduce和Hbase等理论知识和hadoop的生态环境,详细演示hadoop三种模式的安装配 置,以案例的形式,重点讲解基于mahout项目的大数据分析之聚类、分类以及主题推荐。重点培养基于Hadoop架构的大数据分析思想及架构设计,通过 演示实际的大数据 分析案例,使学员能在较短的时间内理解大数据分析的真实价值,掌握如何使用hadoop架构应用于大数据分析过程,使学员能有一个快速提升成为兼有理论和 实战的大数据分析师,从而更好地适应当前互联网经济背景下对大数据分析师需求的旺盛的就业形势。
北京现场&远程直播
|
时间 |
课 程 |
大纲简 介 |
|
第一阶段 |
系统基础篇 15天 |
1.开学典礼及大数据概述 1天 2.linux操作系统及 2天 3.unbuntu系统介绍 1天 4.JAVA基础 5天 5.python基础 4天 6.hadoop单机、伪分布、集群搭建 2天 |
|
第二阶段 |
hadoop生态实战篇 15天 |
1.HDFS深入剖析 1天 2.MapReduce基础理论及高级编程实战 3天 3.Pig原理,部署与Pig Latin语言,应用案例 1天 4.Hive体系架构、安装与HiveQL及Hive应用案例 3天 5.Zookeeper与分布式系统开发 1天 6.HBase体系架构,集群部署,管理 2天 7.HBase数据模型,实战案例建模剖析 3天 8.strom入门及部署 1天 |
|
第三阶段 |
数据分析理论篇 15天 |
1.SPSS软件入门 1天 2.数据分析之统计基础(使用软件为SPSS) 4天 3.R软件操作入门 1天 4.数据挖掘之聚类(使用软件为R) 3天 5.数据挖掘之分类(使用软件为R) 4天 6.数据挖掘之关联规则(使用软件为R)2天 |
|
第四阶段 |
大数据分析案例篇 15天 |
1.大数据可视化技术及工具简介 1天 2.大数据背景下隐私保护及技术介绍 1天 3.大数据的分析方法--SMART模型介绍 1天 4.基于hadoop+Mahout的8个大数据分析案例实战 2天 5.Spark基础原理、集群安装并运行Spark 2天 6.Spark SQL 原理及数据整合应用 2天 7.Spark GraphX图计算方法应用 1天 8.Spark 推荐应用(ALS方法,FP-growth方法)2天 9.Spark 数据建模流程(logistics回归,决策树,朴素贝叶斯方法)3天 |
|
第五阶段 |
毕业篇 6天 |
1.毕业设计 5天 2.毕业典礼 1天 |
大数据为什么要选择Spark的更多相关文章
- 大数据入门第二十二天——spark(一)入门与安装
一.概述 1.什么是spark 从官网http://spark.apache.org/可以得知: Apache Spark™ is a fast and general engine for larg ...
- 老李分享:大数据框架Hadoop和Spark的异同 1
老李分享:大数据框架Hadoop和Spark的异同 poptest是国内唯一一家培养测试开发工程师的培训机构,以学员能胜任自动化测试,性能测试,测试工具开发等工作为目标.如果对课程感兴趣,请大家咨 ...
- 单表千亿电信大数据场景,使用Spark+CarbonData替换Impala案例
[背景介绍] 国内某移动局点使用Impala组件处理电信业务详单,每天处理约100TB左右详单,详单表记录每天大于百亿级别,在使用impala过程中存在以下问题: 详单采用Parquet格式存储,数据 ...
- 大数据开发,Hadoop Spark太重?你试试esProc SPL
摘要:由于目标和现实的错位,对很多用户来讲,Hadoop成了一个在技术.应用和成本上都很沉重的产品. 本文分享自华为云社区<Hadoop Spark太重,esProc SPL很轻>,作者: ...
- 老李分享:大数据框架Hadoop和Spark的异同
poptest是国内唯一一家培养测试开发工程师的培训机构,以学员能胜任自动化测试,性能测试,测试工具开发等工作为目标.如果对课程感兴趣,请大家咨询qq:908821478,咨询电话010-845052 ...
- [转载] 2 分钟读懂大数据框架 Hadoop 和 Spark 的异同
转载自https://www.oschina.net/news/73939/hadoop-spark-%20difference 谈到大数据,相信大家对Hadoop和Apache Spark这两个名字 ...
- 大数据基础知识问答----spark篇,大数据生态圈
Spark相关知识点 1.Spark基础知识 1.Spark是什么? UCBerkeley AMPlab所开源的类HadoopMapReduce的通用的并行计算框架 dfsSpark基于mapredu ...
- 大数据计算框架Hadoop, Spark和MPI
转自:https://www.cnblogs.com/reed/p/7730338.html 今天做题,其中一道是 请简要描述一下Hadoop, Spark, MPI三种计算框架的特点以及分别适用于什 ...
- 2分钟读懂大数据框架Hadoop和Spark的异同
转自:https://www.cnblogs.com/reed/p/7730313.html 谈到大数据,相信大家对Hadoop和Apache Spark这两个名字并不陌生.但我们往往对它们的理解只是 ...
随机推荐
- wampserver php 设置时间
php.ini 查找date.timezone = Europe/Paris 修改成亚洲地区 date.timezone = Asia/Shanghai
- [转]C语言的那些秘密之---函数返回局部变量
一般的来说,函数是可以返回局部变量的. 局部变量的作用域只在函数内部,在函数返回后,局部变量的内存已经释放了.因此,如果函数返回的是局部变量的值,不涉及地址,程序不会出错.但是如果返回的是局部变量的地 ...
- Words-specialty
1-100 101-200 community n.社区; 共同体; 社会团体; [生态] 群落 overview n.概观; 总的看法; 回顾,复习 transforming vi.改变,使 ...
- MVC WebApi 用户验证 (2)
构建ASP.NET MVC5+EF6+EasyUI 1.4.3+Unity4.x注入的后台管理系统(66)-MVC WebApi 用户验证 (2) 前言: 构建ASP.NET MVC5+EF6+E ...
- DPark安装及相关资料整理
最近需要处理海量数据的分布式计算及数据挖掘,经过多次选择(hadoop,Spark,DPark),最后还是选择了DPark,主要是看中DPark的轻量级及python的灵活性,且除了豆瓣外,在几个友公 ...
- Ubuntu 12.04设置豆沙绿
首先确保已安装dconf-editor sudo apt-get install dconf-tools 然后打开dconf-editor 找到:org – gnome -desktop – ...
- android邮件发送几种方式
android中发送邮件我大概发现了3种,代码如下 package src.icetest; import org.apache.commons.mail.EmailException; import ...
- 体验下Xcode5与ios7
IOS7的最新更新. 1.自主选择默认地图应用苹果在iOS 6中移除了谷歌地图,使用了自家研发的苹果地图.不得不说,这款自带的地图应用可以说烂到了一定的程度,自发布之后便问题不断.正因如此,苹果应该允 ...
- python图片小爬虫
import re import urllib import os def rename(name): name = name + '.jpg' return name def getHtml(url ...
- Hibernate缓存、组件、继承映射
Hibernate缓存.组件.继承映射 三种状态: 临时状态:不受session管理,没有提交到数据库:没有执行sql之前,new对象的时候: 持久化状态:受session管理,提交到数据库:正在执行 ...