Spark tungsten 项目阅读笔记

【Spark tungsten 项目阅读笔记】的更多相关文章

Spark tungsten 项目阅读笔记

Spark tungsten 项目阅读笔记 Spark tungsten 项目的宣言就是:Bringing Apache Spark closer Bare Metal. 我的理解就是不要让硬件成为Spark性能的瓶颈,无限充分利用硬件资源(CPU,内存,IO,网络). tungsten主要有3大动作. 1. Memory Mangement and Bianary processing:利用应用程序的语义去管理内存,减少JVM的开销和垃圾回收. 我的理解是利用sun.msic.UnSafe 去…

开源项目阅读笔记--appium+adb

git上搜了几个platform的代码,有一个项目给我感触挺深的. https://github.com/ThomasHansson/Appium-cross-platform-example/tree/master/AppiumExample/app/Android https://github.com/patrickfav/uber-adb-tools/blob/master/src/main/java/at/favre/tools/uberadb/parser/AdbDevicesPars…

【慕课网实战】Spark Streaming实时流处理项目实战笔记十五之铭文升级版

铭文一级:[木有笔记] 铭文二级: 第12章 Spark Streaming项目实战行为日志分析: 1.访问量的统计 2.网站黏性 3.推荐 Python实时产生数据访问URL->IP信息->referer和状态码->日志访问时间->写入到文件中本地与虚拟机都要装了python才能运行重要代码: #coding=UTF-8 #数组最后一个没有“,” url_paths = [ "class/128.html", "class/112.html&…

Spark源代码阅读笔记之DiskStore

Spark源代码阅读笔记之DiskStore BlockManager底层通过BlockStore来对数据进行实际的存储.BlockStore是一个抽象类,有三种实现:DiskStore(磁盘级别的持久化).MemoryStore(内存级别的持久化)和TachyonStore(Tachyon内存分布式文件系统级别的持久化). DiskStore通过DiskBlockManager来实现Block和相应磁盘文件的映射关系,从而将Block存储到磁盘的文件里.DiskBlockManager依据YA…

【慕课网实战】Spark Streaming实时流处理项目实战笔记二十一之铭文升级版

铭文一级: DataV功能说明1)点击量分省排名/运营商访问占比 Spark SQL项目实战课程: 通过IP就能解析到省份.城市.运营商 2)浏览器访问占比/操作系统占比 Hadoop项目:userAgent DataV访问的数据库(MySQL),需要能够在公网上访问 DataV测试数据CREATE TABLE course_click_count(ID int(4) PRIMARY KEY,day VARCHAR(10),course_id VARCHAR(10),click_count lo…

【慕课网实战】Spark Streaming实时流处理项目实战笔记十四之铭文升级版

铭文一级: 第11章 Spark Streaming整合Flume&Kafka打造通用流处理基础 streaming.conf agent1.sources=avro-sourceagent1.channels=logger-channelagent1.sinks=log-sink #define sourceagent1.sources.avro-source.type=avroagent1.sources.avro-source.bind=0.0.0.0agent1.sources.avro…

【慕课网实战】Spark Streaming实时流处理项目实战笔记二之铭文升级版

铭文一级: 第二章:初识实时流处理需求:统计主站每个(指定)课程访问的客户端.地域信息分布地域:ip转换 Spark SQL项目实战客户端:useragent获取 Hadoop基础课程 ==> 如上两个操作:采用离线(Spark/MapReduce)的方式进行统计实现步骤: 课程编号.ip信息.useragent 进行相应的统计分析操作:MapReduce/Spark 项目架构日志收集:Flume 离线分析:MapReduce/Spark 统计结果图形化展示问题小时级别 10分钟…

IDEA 学习笔记之 Spark/SBT项目开发

Spark/SBT项目开发: 下载Scala SDK 下载SBT 配置IDEA SBT:(如果不配置,就会重新下载SBT, 非常慢,因为以前我已经下过了,所以要配置为过去使用的SBT) 新建立SBT项目: 导入Spark jars: 创建WordCount: import org.apache.spark.{SparkConf, SparkContext} object WordCountDemo { def main(args: Array[String]): Unit = { if (arg…

阅读笔记 1 火球 UML大战需求分析

伴随着七天国庆的结束,紧张的学习生活也开始了,首先声明,阅读笔记随着我不断地阅读进度会慢慢更新,而不是一次性的写完,所以会重复的编辑.对于我选的这本 <火球 UML大战需求分析>,首先,为什么选择这本书呢,其实,最开始我选择的是<实用软件需求分析>,可是后来大概看了<火球 UML大战需求分析>这本书前序之后啊,发现了,书中的作者一开始和我们有着一样的困扰,就象我们大学刚学到UML之后,学完一考试,考试前一复习,考完之后,就随手扔到了一边去.因为对于我们没有经历过正规…

《uml大战需求分析》阅读笔记05

<uml大战需求分析>阅读笔记05 这次我主要阅读了这本书的第九十章,通过看这章的知识了解了不少的知识开发某系统的重要前提是:这个系统有谁在用?这些人通过这个系统能做什么事? 一般搞清楚这件事,再画个业务流程图,就能条例清楚的表达系统的需求了.作为一个开发人员,不仅要懂得如何从用户那里获取有用的信息,还要懂得怎么清晰地描述自己的想法,给客户呈现出一个结构完整.功能全面的系统原型.那么,这些必备的画图技巧,就会帮上很大的忙. 用例图是用处非常广泛,使用频率最高的UML图,它用来描述什么角色通过某…