spark概论,补充
基本概念
RDD
spark最大的亮点是提出RDD(Resilient Distributed Dataset)的概念,也就是可伸缩的分布式数据集合,本身只读,可恢复。spark本身不做物理储存,通过保存足够的信息去实际的储存中计算出RDD
RDD只要通过四种途径获取:
并行操作
共享变量
例子
给出一些实时统计日志数据例子,例子都是本地模式计算(集群模式需要Mesos),仅供参考,实现上而言非常简单
统计日志中出现多少次hbase读取:
日志的格式每行第5位是标识字段,第6位是响应时间,第7位是类型字段
val spark = new SparkContext(“local”,”test”)val file = spark.textFile(“D:\\data\\keykeys-log\\log.log”)val lines = file.filter(line => line.contains(“hbase_time”))println(lines.count());
val spark = new SparkContext(“local[2]“, “test”)val file = spark.textFile(“D:\\data\\keykeys-log\\log.log”)val lines = file.filter(_.contains(“hbase_time”))val times = lines.map(dd => dd.split(” “)(6).toInt).reduce(_ + _)println(“times:” + times/lines.count())
val spark = new SparkContext(“local[2]“, “test”)val file = spark.textFile(“D:\\data\\keykeys-log\\log.log”)val lines = file.filter(_.contains(“hbase_time”))val ones = lines.map(word => (word.split(” “)(7), 1)).reduceByKey(_ + _)ones.foreach(println)
spark概论,补充的更多相关文章
- spark概论
		一.概述 1.轻:(1)采用语言简洁的scala编写:(2)利用了hadoop和mesos的基础设施 2.快:spark的内存计算.数据本地性和传输优化.调度优化,使其在迭代机器学习,ad-hoc ... 
- Spark SQL读parquet文件及保存
		import org.apache.spark.{SparkConf, SparkContext} import org.apache.spark.sql.{Row, SparkSession} im ... 
- SQL 必知必会
		本文介绍基本的 SQL 语句,包括查询.过滤.排序.分组.联结.视图.插入数据.创建操纵表等.入门系列,不足颇多,望诸君指点. 注意本文某些例子只能在特定的DBMS中实现(有的已标明,有的未标明),不 ... 
- 2019t1_sumdoc_list.txt aa.docx acc baidu v2 sbb.docx Acc jindon v2 sbb.docx assetsList.html Atiitt 日本刑法典读后笔记.docx Atiti 遇到说花心的时候赞美应对.docx Atitit  lesson.docx Atitit  malye主义、mzd思想和dsp理论的区别和联系.docx Ati
		2019t1_sumdoc_list.txtaa.docxacc baidu v2 sbb.docxAcc jindon v2 sbb.docxassetsList.htmlAtiitt 日本刑法典读 ... 
- 腾讯 angel 3.0:高效处理模型
		腾讯 angel 3.0:高效处理模型 紧跟华为宣布新的 AI 框架开源的消息,腾讯又带来了全新的全栈机器学习平台 angel3.0.新版本功能特性覆盖了机器学习的各个阶段,包括:特征工程.模型训练. ... 
- [Spark性能调优] 源码补充 : Spark 2.1.X 中 Unified 和 Static MemoryManager
		本课主题 Static MemoryManager 的源码鉴赏 Unified MemoryManager 的源码鉴赏 引言 从源码的角度了解 Spark 内存管理是怎么设计的,从而知道应该配置那个参 ... 
- 大数据学习day23-----spark06--------1. Spark执行流程(知识补充:RDD的依赖关系)2. Repartition和coalesce算子的区别 3.触发多次actions时,速度不一样 4. RDD的深入理解(错误例子,RDD数据是如何获取的)5 购物的相关计算
		1. Spark执行流程 知识补充:RDD的依赖关系 RDD的依赖关系分为两类:窄依赖(Narrow Dependency)和宽依赖(Shuffle Dependency) (1)窄依赖 窄依赖指的是 ... 
- 大数据学习day22------spark05------1. 学科最受欢迎老师解法补充 2. 自定义排序  3. spark任务执行过程 4. SparkTask的分类 5. Task的序列化 6. Task的多线程问题
		1. 学科最受欢迎老师解法补充 day21中该案例的解法四还有一个问题,就是当各个老师受欢迎度是一样的时候,其排序规则就处理不了,以下是对其优化的解法 实现方式五 FavoriteTeacher5 p ... 
- [Spark RDD_add_2] Spark RDD 分区补充内容
		[Spark & Hadoop 的分区] Spark 的分区是切片的个数,每个 RDD 都有自己的分区数. Hadoop 的分区指的是 Reduce 的个数,是 Map 过程中对 Key 进行 ... 
随机推荐
- 第二章 D - Number Sequence(1.5.10)
			转载请注明出处:優YoU http://user.qzone.qq.com/289065406/blog/1301527312 大致题意: 有一串数字串,其规律为 1 12 123 1234 1234 ... 
- fatal: Not a git repository (or any of the parent directories): .git
			$ git remote add origin https://github.com/heyuanchao/YouxibiClient.gitfatal: Not a git repository ( ... 
- PHP获取文件目录dirname(__FILE__),getcwd()
			以discuz x2.5为例 D:/www/upload2.5/test.php D:/www/upload2.5/source/class/class_test.php test.php文件如下 & ... 
- Oracle数据库——函数   http://www.jb51.net/article/40469.htm
			1====分析函数 相当于把分组后的结果加到每一行里 SELECT t.loan_contract_no,t.loan_name,t.loan_amount,ROWNUM, row_number ... 
- OC基础笔记目录
			OC基础(1) Objective-C简介 OC和C对比 第一个OC程序 面向对象思想 OC基础(2) 类与对象 类的设计 第一个OC类 对象方法的声明和实现 类方法的声明和实现 OC基础(3) 对象 ... 
- Fegla and the Bed Bugs  二分
			Fegla and the Bed Bugs Fegla, also known as mmaw, is coaching a lot of teams. All these teams train ... 
- 初探appium之appium的使用
			上一篇中已经讲了python+appium的环境搭建.这里简单的讲一下appium的使用. 我也是第一次使用appium,看了教程问了人.知道appium可以通过模拟也可以连接上手机使用.本篇中,先使 ... 
- jmeter随笔(2)--上传接口报错
			黑夜小怪(2016-8-24 23:45) 微信订阅号: 问题:今天同事遇到问题,一个图片上传接口,单独跑是ok的,但是放在和其他接口一起就跑不通,如图 分析:查看该接口fiddler的抓包,发现请 ... 
- python写入中文到文件乱码的问题
			file = open(filename,'a',encoding='utf8')#指定写入编码为utf8,否则写入中文会乱码 
- Powerdesigner 导出Excel格式数据字典 导出Excel格式文件
			版权声明:本文为博主原创文章,转载请注明出处; 网上我也看到了很多的Powerdesigner 导出方法,因为Powerdesigner 提供了部分VBA功能,所以让我用代码导出Excel格式文件得以 ... 
