Spark tungsten 项目阅读笔记

Spark tungsten 项目的宣言就是：Bringing Apache Spark closer Bare Metal。我的理解就是不要让硬件成为Spark性能的瓶颈，无限充分利用硬件资源（CPU，内存，IO，网络）。

tungsten主要有3大动作。

1. Memory Mangement and Bianary processing：利用应用程序的语义去管理内存，减少JVM的开销和垃圾回收。

　我的理解是利用sun.msic.UnSafe 去管理内存，不使用JVM的垃圾回收机制。在1.4 和 1.5中可以使用此特性。unsafe-heap 和 unsafe-offheap 的hashmap可以处理100万/s/线程聚合操作。相比Java.util.Hasp 2倍的性能。

2. Cache-aware Coputation:algorithm and data structure to exploit memory hierarchy。（算法和大数据结构利用多级内存）

利用CPU的一级、二级、三级缓存来提高排序的cache命中率（如何提高没看明白）。相比之前版本排序提高3倍。对排序、sort merger、高cardinality聚合性能有帮助

3. Code-genaration:using code generation to exploit modern compilers and CPUs。（代码生成利用modern compiles和cpu）

code generation从record-at-a-time 表达式评估到 vectorized 表达式评估。可以一次处理多条数据。shuffle的性能相比kryo版本提高两倍（shuffle8百万的测试场景）

参考文献：

https://databricks.com/blog/2015/04/28/project-tungsten-bringing-spark-closer-to-bare-metal.html

http://stackoverflow.com/questions/37505638/understanding-spark-physical-plan

Spark tungsten 项目阅读笔记的更多相关文章

开源项目阅读笔记--appium+adb
git上搜了几个platform的代码,有一个项目给我感触挺深的. https://github.com/ThomasHansson/Appium-cross-platform-example/tre ...
【慕课网实战】Spark Streaming实时流处理项目实战笔记十五之铭文升级版
铭文一级:[木有笔记] 铭文二级: 第12章 Spark Streaming项目实战行为日志分析: 1.访问量的统计 2.网站黏性 3.推荐 Python实时产生数据访问URL->IP信息- ...
Spark源代码阅读笔记之DiskStore
Spark源代码阅读笔记之DiskStore BlockManager底层通过BlockStore来对数据进行实际的存储.BlockStore是一个抽象类,有三种实现:DiskStore(磁盘级别的持 ...
【慕课网实战】Spark Streaming实时流处理项目实战笔记二十一之铭文升级版
铭文一级: DataV功能说明1)点击量分省排名/运营商访问占比 Spark SQL项目实战课程: 通过IP就能解析到省份.城市.运营商 2)浏览器访问占比/操作系统占比 Hadoop项目:userA ...
【慕课网实战】Spark Streaming实时流处理项目实战笔记十四之铭文升级版
铭文一级: 第11章 Spark Streaming整合Flume&Kafka打造通用流处理基础 streaming.conf agent1.sources=avro-sourceagent1 ...
【慕课网实战】Spark Streaming实时流处理项目实战笔记二之铭文升级版
铭文一级: 第二章:初识实时流处理需求:统计主站每个(指定)课程访问的客户端.地域信息分布地域:ip转换 Spark SQL项目实战客户端:useragent获取 Hadoop基础课程 ==&g ...
IDEA 学习笔记之 Spark/SBT项目开发
Spark/SBT项目开发: 下载Scala SDK 下载SBT 配置IDEA SBT:(如果不配置,就会重新下载SBT, 非常慢,因为以前我已经下过了,所以要配置为过去使用的SBT) 新建立SBT项 ...
阅读笔记 1 火球 UML大战需求分析
伴随着七天国庆的结束,紧张的学习生活也开始了,首先声明,阅读笔记随着我不断地阅读进度会慢慢更新,而不是一次性的写完,所以会重复的编辑.对于我选的这本 <火球 UML大战需求分析>,首先 ...
《uml大战需求分析》阅读笔记05
<uml大战需求分析>阅读笔记05 这次我主要阅读了这本书的第九十章,通过看这章的知识了解了不少的知识开发某系统的重要前提是:这个系统有谁在用?这些人通过这个系统能做什么事? 一般搞清楚这 ...

随机推荐

Fiddler抓包（基本使用方法、web+app端抓包、篡改数据、模拟低速）
1.HTTP代理原理图 http服务器代理:既是web服务器,又是web客户端接口vs端口: 接口:包含地址和端口端口:类似于USB接口地址:127.0.0.1,端口默认:8888 ...
使用eclipse部署springcloud config从GitHub上获取配置内容出现错误：Auth fail
Eclipse点击Window > Preferences > General > Network Connections > SSH2 点击"Key Managem ...
SpringBoot之WEB开发-专题二
SpringBoot之WEB开发-专题二三.Web开发 3.1.静态资源访问在我们开发Web应用的时候,需要引用大量的js.css.图片等静态资源. 默认配置 Spring Boot默认提供静态资 ...
解题报告：luogu P1433 吃奶酪
题目链接:P1433 吃奶酪我感觉可以改成:[模板]TSP问题(商旅问题) 了. 爆搜\(T\)一个点,考虑状压\(dp\)(还是爆搜). 我们用\(dp[i][j]\)表示现在是\(i\)状态,站 ...
apply()、call()、bind()
在JavaScript中,call.apply和bind是Function对象自带的三个方法,这三个方法的主要作用是改变函数中的this指向.apply和call方法.bind方法都是在特定的作用域中 ...
Django 学习之cookie与session
一.cookie和session的介绍 cookie不属于http协议范围,由于http协议无法保持状态,但实际情况,我们却又需要“保持状态”,因此cookie就是在这样一个场景下诞生. cookie ...
关于length、length()、size(）
length:属性,数组的属性. length(): String的方法,方法体里面是 return value.length; size():集合如list.set.map的方法,返回元素个数.
四 SpringMVC与页面之间的参数传递&高级参数的绑定&日期类型的转换
参数传递: 1 原生方式:使用Servlet API , request.getParameter("id"); 2 直接将请求参数作为Controller中的形参: publ ...
吴裕雄 Bootstrap 前端框架开发——Bootstrap 表格：上下文类
<!DOCTYPE html> <html> <head> <meta charset="utf-8"> <title> ...
mybatis 入门参考
参考:https://www.cnblogs.com/xdp-gacl/p/4261895.html

Spark tungsten 项目阅读笔记

Spark tungsten 项目阅读笔记的更多相关文章

随机推荐

热门专题