首页
Python
Java
IOS
Andorid
NodeJS
JavaScript
HTML5
【
[spark 快速大数据分析读书笔记] 第一章 导论
】的更多相关文章
[spark 快速大数据分析读书笔记] 第一章 导论
[序言] Spark 基于内存的基本类型 (primitive)为一些应用程序带来了 100 倍的性能提升.Spark 允许用户程序将数据加载到 集群内存中用于反复查询,非常适用于大数据和机器学习. 目前,Spark 已经超越 Spark 核心,发展到了 Spark streaming.SQL.MLlib. GraphX.SparkR 等模块. Spark 对曾经引爆大数据产业革命的 Hadoop MapReduce 的改进主要体现在这几个方面: 1.Spark 速度更快: 2.Spark 丰富…
[Spark快速大数据分析]阅读笔记
第2章 Spark分布式执行涉及的组件 每个Spark应用都由一个驱动程序来发起集群上的各种并行操作,驱动程序通过一个SparkContext对象访问Spark:驱动程序管理多个执行器节点,可以用SparkContext来创建RDD. 第3章 RDD(Resilient Distributed Dataset:弹性分布式数据集) RDD特点 Spark中,对数据的所有操作不外乎:创建RDD.转化已有RDD.调用RDD操作进行求值. Spark会自动将RDD中的数据分发到集群上,并将操作并行化执行…
《Spark快速大数据分析》—— 第六章 Spark编程进阶
这章讲述了Spark编程中的高级部分,比如累加器和广播等,以及分区和管道...…
《Spark快速大数据分析》—— 第五章 数据读取和保存
由于Spark是在Hadoop家族之上发展出来的,因此底层为了兼容hadoop,支持了多种的数据格式.如S3.HDFS.Cassandra.HBase,有了这些数据的组织形式,数据的来源和存储都可以多样化~…
《Spark快速大数据分析》—— 第三章 RDD编程
…
《Spark快速大数据分析》—— 第七章 在集群上运行Spark
…
spark快速大数据分析学习笔记*初始化sparkcontext(一)
初始化SparkContext 1// 在java中初始化spark import org.apache.spark.SparkConf; import org.apache.spark.api.java.JavaSparkContext; SparkConf conf=new SparkConf().setMaster("local").setAppName("my app"); //集群url:本例是运行在本地单机local:应用名,可以在集群管理器用户界面中找…
.net架构设计读书笔记--第一章 基础
第一章 基础 第一节 软件架构与软件架构师 简单的说软件架构即是为客户构建一个软件系统.架构师随便软件架构应运而生,架构师是一个角色. 2000年9月ANSI和IEEE发布了<密集性软件架构建议章程>Recommended practice for architectural description of software-intensive systems 1. 软件架构的目的 2. 架构师的角色与职责 第二节 成功的设计 成功的软件项目是充分实现了软件的需求,成功的软件设计是指成功的…
《深入理解计算机系统》(CSAPP)读书笔记 —— 第一章 计算机系统漫游
本章通过跟踪hello程序的生命周期来开始对计算机系统进行学习.一个源程序从它被程序员创建开始,到在系统上运行,输出简单的消息,然后终止.我们将沿着这个程序的生命周期,简要地介绍一些逐步出现的关键概念.专业术语和组成部分. @ 目录 源程序是如何存储的 源程序到可执行文件的过程 shell是什么 典型系统的硬件组成 运行hello程序 高速缓存 存储设备的层次结构 操作系统管理硬件 进程&线程 虚拟内存 并发&并行 多核处理器&多线程 好久没有更新博客了,从国庆节到现在一直在整…
Getting Started With Hazelcast 读书笔记(第一章)
第一章:数据集群的演化与 早期的服务器架构 显然,应用是可扩展的,但是由于是集中式服务器,随着数据库性能达到极限,再想扩展就变得极端困难,于是出现了缓存. 缓存显然再次提升了可扩展性,减轻了数据库的负担.同时也带来了缓存数据同步的问题,书中介绍主要有2种解决办法: 1.时间限制缓存:指定缓存生存期,过期后重新读取(这会有同步问题,但是至少是可控的) 2.直写缓存:数据更新,直接写入数据库,并通知其他缓存该数据无效,这会有读写冲突,并且在读写频繁时性能也大打折扣. 于是,作者引入了 Ha…