spark复习笔记(1)

使用spark实现work count

----------------------------------------------------

　　(1)用sc.textFile("　　")　　来实现文件的加载

val rdd1 = sc.testFile("home/centos/test.txt");//加载文本文件，以换行符的方式切割文本文件.Array(hello world1 ,.........),产生第一个弹性分布式数据集

　　(2)元素拿来之后对集合中的每个元素进行切割，按照空格进行切割

　　　　def map[U](f:String=>U)(implict evidence$3:scala.reflect.ClassTag[u]):org.apache.spark.rdd.RDD[U]

　　　　这个地方map是柯里化的，有两个参数，第二个是隐式的，函数f是是从String类型到U的映射，把一行按照空格来进行切割

　　　　把每一行进行切割，切开之后，每个元素都变成了一个数组，第一个元素是[hello world1]，第二个元素是[hello world2]，第三个元素是[hello world3]，第四个元素是[hello world4]，这个时候已经变成数组的集合了

　　　(3)val rdd2 = rdd1.flatMap(line=>line.split(" "));　　　　//压扁操作

　　　(4)val rdd3 = rdd2.map(word=>(word,1))　　　　//变换成对偶(k,v)

　　　(5)val rdd4=reduceByKey(_ + _)　　　　　　　//_是对每个元素的引用，按照key来聚合value

　　　(6)rdd4.collect　　　　　　　　　　　　　　//查看结果

　　　(7)一顿操作猛如虎

sc.textFile("/home/centos/test.txt").flatMap(_.split(" ")).reduceByKey(_ + _).collect

　　　(8)单词过滤　

sc.textFile("/home/centos/test.txt").flatMap(_.split(" ")).filter(_.contains("wor")).map((_,)).reduceByKey(_ + _).collect

spark复习笔记(1)的更多相关文章

spark复习笔记(7):sparkstreaming
一.介绍 1.sparkStreaming是核心模块Spark API的扩展,具有可伸缩,高吞吐量以及容错的实时数据流处理等.数据可以从许多来源(如Kafka,Flume,Kinesis或TCP套接字 ...
spark复习笔记(7):sparkSQL
一.saprkSQL模块,使用类sql的方式访问Hadoop,实现mr计算,底层使用的是rdd 1.hive //hadoop mr sql 2.phenoix //hbase上构建sql的交互过 ...
spark复习笔记(6):RDD持久化
在spark中最重要的功能之一是跨操作在内存中持久化数据集.当你持久化一个RDD的时候,每个节点都存放了一个它在内存中计算的一个分区,并在该数据集的其他操作中进行重用,持久化一个RDD的时候,节点上的 ...
spark复习笔记(6):数据倾斜
一.数据倾斜 spark数据倾斜,map阶段对key进行重新划分.大量的数据在经过hash计算之后,进入到相同的分区中,zao
spark复习笔记(4):RDD变换
一.RDD变换 1.返回执行新的rdd的指针,在rdd之间创建依赖关系.每个rdd都有一个计算函数和指向父rdd的指针 Spark是惰性的,因此除非调用某个转换或动作,否则不会执行任何操作,否则将触发 ...
spark复习笔记(5):API分析
0.spark是基于hadoop的mr模型,扩展了MR,高效实用MR模型,内存型集群计算,提高了app处理速度. 1.特点:(1)在内存中存储中间结果 (2)支持多种语言:java scala pyt ...
spark复习笔记(4):spark脚本分析
1.[start-all.sh] #!/usr/bin/env bash # # Licensed to the Apache Software Foundation (ASF) under one ...
spark复习笔记(3)
在windows上实现wordcount单词统计一.编写scala程序,引入spark类库,完成wordcount 1.sparkcontextAPI sparkcontext是spark功能的主要 ...
spark复习笔记(3)：使用spark实现单词统计
wordcount是spark入门级的demo,不难但是很有趣.接下来我用命令行.scala.Java和python这三种语言来实现单词统计. 一.使用命令行实现单词的统计 1.首先touch一个a. ...

随机推荐

Codeforces Round #303 (Div. 2) E. Paths and Trees Dijkstra堆优化+贪心（！！！）
E. Paths and Trees time limit per test 3 seconds memory limit per test 256 megabytes input standard ...
指定文件或文件夹直接提交到svn指定目录
我这里先说两种方法第一种:1.先将那个目录checkout下来2.将要添加的文件或者文件夹放到这个目录中3.右击文件执行svn菜单中的add命令4.右击文件执行svn菜单中的commit命令第二种:如 ...
ant design Radio.Group defaultValue 默认选中没生效
版本问题 (3.10.7 版本中使用 defaultValue) <div> <Radio.Group defaultValue="a" buttonStyle= ...
Unity3D 中的FOV
一直以为Unity中的相机FOV指的是frustum两个对角边的方向夹角,所以在看一篇教程的时候怎么算都算不对.后来灵机一动,查了一下,才发现Unity中的Fov指的是垂直方向的FOV: 参见这里:h ...
sqli-labs(24)
0x1 前言 SQL注入一般分为两类:一阶SQL注入(普通SQL注入),二阶SQL注入 .二次注入不是注入两次的意思,请不要混淆 0x2 什么是二阶注入二阶注入是指客通过构造数据的形式,在浏览器或者 ...
php GD库简单使用和封装
GD库创建图像步骤 <?php //1.创建画布 $width = 300; $height= 200; $image=imagecreatetruecolor($width,$height); ...
cmd 中文显示错误，解决办法
cmd窗口左上角控制按钮(就是图标)上单击-默认-选项-默认编码-936 追问默认值是936的,但是属性里的当前代码页是437呀,怎么办囧oz 追答默认-选项-默认编码-936 不是属性,是 ...
WebMvcConfigurerAdapter详解和过时后的替代方案
一.什么是WebMvcConfigurerAdapter Spring内部的一种配置方式采用JavaBean的形式来代替传统的xml配置文件形式进行针对框架个性化定制二.WebMvcConfigur ...
Java程序员面试题集（151-180）
Java面试题集(151-180) 摘要:这部分包含了Spring.Spring MVC以及Spring和其他框架整合以及测试相关的内容,除此之外还包含了大型网站技术架构相关面试内容. 151. Sp ...
[Usaco2017 Jan]Promotion Counting
n只奶牛构成了一个树形的公司,每个奶牛有一个能力值pi,1号奶牛为树根.问对于每个奶牛来说,它的子树中有几个能力值比它大的.Inputn,表示有几只奶牛 n<=100000接下来n行为1-n号奶 ...

spark复习笔记(1)

使用spark实现work count

spark复习笔记(1)的更多相关文章

随机推荐

热门专题