原文引自:http://blog.sina.com.cn/s/blog_628cc2b70102w9up.html

一、初始化SparkContext

System.setProperty("hadoop.home.dir", "D:\\spark-1.6.1-bin-hadoop2.6\\spark-1.6.1-bin-hadoop2.6");
SparkConf conf = new SparkConf().setAppName("spark test1").setMaster("local[2]");
JavaSparkContext context = new JavaSparkContext(conf);
 
二、使用parallelize方法
创建RDD最简单的方式就是把程序中一个已有的集合传给SparkContext的parallelize()方法
JavaRDD lines = context.parallelize(Arrays.asList("pandas", "i like pandas"));
System.out.println(lines.collect());
输出:[pandas, i like pandas]
 
三、RDD操作(filter方法)
RDD支持两种操作:转化操作和行动操作。RDD的转化操作是返回一个新的RDD的操作,比如map()和filter(),而行动操作则是想驱动器程序返回结果或把结果写入外部系统的操作,会触发实际的计算,比如count()和first()。
JavaRDD inputRDD = context.textFile("D:\\log\\521.txt");
JavaRDD errorsRDD = inputRDD.filter(
new Function(){
 
@Override
public Boolean call(String x) throws Exception {
// TODO Auto-generated method stub
return x.contains("error");
}
});
System.out.println("errors显示为:" + errorsRDD.collect());
System.out.println("errors个数为:" + errorsRDD.count());
其中521.log为android的logcat文件,里面包含很多错误信息。
 
四、使用lambda表达式
Java8 开始支持lambda表达式,可以简洁地实现函数接口。
JavaRDD inputRDD = context.textFile("D:\\log\\521.txt");
JavaRDD errors  = inputRDD.filter(s -> s.contains("error"));
System.out.println(errors.count());
输出:23
 
五、使用map方法
将函数应用于RDD中的每个元素,将返回值构成新的RDD
JavaRDD rdd = context.parallelize(Arrays.asList(1, 3, 5, 7));
JavaRDD result = rdd.map(
new Function(){
 
@Override
public Integer call(Integer x) throws Exception {
// TODO Auto-generated method stub
return x * x;
}
});
System.out.println(StringUtils.join(result.collect(), ","));
输出:1,9,25,49
 
六、使用flatMap方法
将函数应用于RDD中的每个元素,将返回的迭代器的所有内容构成新的RDD,通常用来切分单词。与map的区别是:这个函数返回的值是list的一个,去除原有的格式
JavaRDD lines = context.parallelize(Arrays.asList("hello world", "hi"));
JavaRDD words = lines.flatMap(
new FlatMapFunction(){
 
@Override
public Iterable call(String lines) throws Exception {
// TODO Auto-generated method stub
return Arrays.asList(lines.split(" "));
}
});
System.out.println(words.collect());
System.out.println(words.first());
输出:
[hello, world, hi]
hello
 
七、使用PairRDD方法
Spark为包含键值对类型的RDD提供了一些专有的操作,这些RDD称为pair RDD。当需要把一个普通的RDD转为pair RDD时,可以调用map()函数来实现。
JavaRDD lines = context.parallelize(Arrays.asList("hello world", "hangtian is from hangzhou", "hi", "hi"));
PairFunction keyData = new PairFunction(){
 
@Override
public Tuple2 call(String x) throws Exception {
// TODO Auto-generated method stub
return new Tuple2(x.split(" ")[0], x);
}
};
JavaPairRDD pairs = (JavaPairRDD) lines.mapToPair(keyData);
System.out.println(pairs.collect());
输出:[(hello,hello world), (hangtian,hangtian is from hangzhou), (hi,hi), (hi,hi)]
 
八、计算单词个数
JavaRDD input = context.textFile("D:\\test.txt");
JavaRDD words = input.flatMap(new FlatMapFunction(){
 
@Override
public Iterable call(String x) throws Exception {
// TODO Auto-generated method stub
return Arrays.asList(x.split(" "));
}
});
JavaPairRDD wordspair = words.mapToPair(new PairFunction(){
 
@Override
public Tuple2 call(String x) throws Exception {
// TODO Auto-generated method stub
return new Tuple2(x, 1);
}
});
JavaPairRDD result = wordspair.reduceByKey(new Function2(){
 
@Override
public Integer call(Integer x, Integer y) throws Exception {
// TODO Auto-generated method stub
return x + y;
}
});
System.out.println(result.sortByKey().collect());
输出:[(,2), (are,1), (can,1), (go,1), (i,2), (love,1), (me,1), (much,1), (ok?,1), (should,1), (so,2), (with,1), (you,3)]
 
九、使用Accumulator方法
Spark有两种共享变量:累加器 和 广播变量。累加器用来对信息进行聚合,而广播变量用来高效分发较大的对象。累加器提供了将工作节点中的值聚合到驱动器程序中国的简单语法。
JavaRDD rdd = context.textFile("D:\\test.txt");
final Accumulator blankLines = context.accumulator(0);
JavaRDD callSigns = rdd.flatMap(new FlatMapFunction(){
 
@Override
public Iterable call(String line) throws Exception {
// TODO Auto-generated method stub
if(line.equals("")){
blankLines.add(1);
}
return Arrays.asList(line.split(" "));
}
});
System.out.println(callSigns.collect());
System.out.println("Blank lines: " + blankLines.value()); 
输出:
[i, love, you, so, much, , so, i, should, you, can, go, with, me, , are, you, ok?]
Blank lines: 2
 
十、Spark SQL使用
Spark提供Spark SQL来操作结构化和半结构化数据。直白说就是,可以使用sql语句操作json和txt文件进行数据查询等操作。
JavaRDD rdd = context.textFile("D:\\test.json");
SQLContext sqlContext = SQLContext.getOrCreate(rdd.context());
        DataFrame dataFrame = sqlContext.read().json(rdd);
        dataFrame.registerTempTable("person");
        DataFrame resultDataFrame = sqlContext.sql("select * from person where lovesPandas=true");
        resultDataFrame.show(false);
输出:
+-----------+---------+
|lovesPandas|name     |
+-----------+---------+
|true       |nanchang |
|true       |qier     |
|true       |kongshuai|
+-----------+---------+
 
十一、Spark Stream使用
用来实时计算数据,其构造函数接口用来指定多久时间处理一次新数据的批次间隔作为输入。以下代码在本地未能执行通过。设想是把netcat工具作为输入源,在程序中打印输入信息并进行处理
JavaStreamingContext jssc = new JavaStreamingContext(conf, new Duration(2000));
JavaDStream lines = jssc.socketTextStream("localhost", 7778);
lines.print();
jssc.start();
jssc.awaitTermination();
以上代码运行还需要删除最上面的context初始化的代码。

Spark中使用Java编程的常用方法的更多相关文章

  1. spark 中的RDD编程 -以下基于Java api

    1.RDD介绍:     RDD,弹性分布式数据集,即分布式的元素集合.在spark中,对所有数据的操作不外乎是创建RDD.转化已有的RDD以及调用RDD操作进行求值.在这一切的背后,Spark会自动 ...

  2. 在Windows的DOS中运行java编程中的问题

    1.苦恼着我的就是找不到或无法加载主类!

  3. Java中的String字符串及其常用方法

    字符串(String) 文章目录 字符串(String) 直接定义字符串 常用方法 字符串长度 toLowerCase() & toUpperCase()方法 trim()方法去除空格 判空 ...

  4. Java中的网络编程

    ​ Java中的网路编程主要是Java的Socket编程,属于JavaEE中的高级的部分,以下内容是对java网路编程的一个小结,代码都是经过编译调试的 C/S程序应用:客户/服务器模式,如QQ客户端 ...

  5. Java编程中“为了性能”尽量要做到的一些地方

    最近的机器内存又爆满了,除了新增机器内存外,还应该好好review一下我们的代码,有很多代码编写过于随意化,这些不好的习惯或对程序语言的不了解是应该好好打压打压了. 下面是参考网络资源总结的一些在Ja ...

  6. paip.提升性能--多核cpu中的java/.net/php/c++编程

    paip.提升性能--多核cpu中的java/.net/php/c++编程 作者Attilax  艾龙,  EMAIL:1466519819@qq.com  来源:attilax的专栏 地址:http ...

  7. java编程思想第四版中net.mindview.util包下载,及源码简单导入使用

    在java编程思想第四版中需要使用net.mindview.util包,大家可以直接到http://www.mindviewinc.com/TIJ4/CodeInstructions.html 去下载 ...

  8. Java学习笔记(五)——google java编程风格指南(中)

    [前面的话] 年后开始正式上班,计划着想做很多事情,但是总会有这样那样的打扰,不知道是自己要求太高还是自我的奋斗意识不够?接下来好好加油.好好学学技术,好好学习英语,好好学习做点自己喜欢的事情,趁着自 ...

  9. 在myeclipse中使用Java语言进行spark Standalone模式应用程序开发

    一.环境配置 Myeclipse中虽然已经集成了maven插件,但是由于这个插件版本较低,建立maven project会出现错误. 解决办法:自己到官网http://maven.apache.org ...

随机推荐

  1. Struts功能详解——ActionForm

    ActionForm ActionForm用于封装用户的请求参数,而请求参数是通过JSP页面的表单域传递过来的.因此应保证ActionForm的参数,与表单域的名字相同.     ActionForm ...

  2. 线段树区间离散化——牛客多校E

    这个区间离散化把我调死了.. 总之用vector来离散化,然后叶子节点维护的是一段区间,记录下每个叶子结点的起点+长度 千万要注意下标不能弄错! #include<bits/stdc++.h&g ...

  3. Spring Boot集成Shiro实战

    Spring Boot集成Shiro权限验证框架,可参考: https://shiro.apache.org/spring-boot.html 引入依赖 <dependency> < ...

  4. 《转》python基础下

    转自http://www.cnblogs.com/BeginMan/archive/2013/04/12/3016323.html 一.数字 在看<Python 核心编程>的时候,我就有点 ...

  5. Springboot整合dubbo搭建基本的消费、提供和负载均衡

    文章目录 1.确定接口 2.创建提供者 2.1 pom配置 2.2dubbo配置文件 2.3 application.properties 2.4 mybatis相关 2.4.1 配置UserMapp ...

  6. Activiti学习笔记6 — 变量与历史记录

    一. 变量的使用 1.创建流程引擎对象 private ProcessEngine processEngine = ProcessEngines.getDefaultProcessEngine(); ...

  7. 基于第三方开源库的OPC服务器开发指南(1)——OPC与DCOM

    事儿太多,好多事情并不以我的意志为转移,原想沉下心好好研究.学习图像识别,继续丰富我的机器视觉库,并继续<机器视觉及图像处理系列>博文的更新,但计划没有变化快,好多项目要完成,只好耽搁下来 ...

  8. Hive系统架构

  9. JavaScript - window对象相关

    1 . window对象常用方法 : 写法 : window.方法() 注意 : window可以省略不写 alert(), confirm(), prompt()是JavaScript提供和用户交互 ...

  10. Oracle闪回查询恢复delete删除数据

    Flashback query(闪回查询)原理 Oracle根据undo信息,利用undo数据,类似一致性读取方法,可以把表置于一个删除前的时间点(或SCN),从而将数据找回. Flashback q ...