Spark中的wordCount程序实现
import org.apache.spark.SparkConf;import org.apache.spark.api.java.JavaPairRDD;import org.apache.spark.api.java.JavaRDD;import org.apache.spark.api.java.JavaSparkContext;import org.apache.spark.api.java.function.FlatMapFunction;import org.apache.spark.api.java.function.PairFunction;import scala.Tuple2;import java.util.Arrays;import java.util.List;public class Main {    public static void main(String[] args) {        //设置本地模式,不提交到集群运行,运行的名称为myapp        SparkConf conf = new SparkConf().setMaster("local").setAppName("my app");        JavaSparkContext sc = new JavaSparkContext(conf);        //设置文件的输入路径为/ok/test        String inputFile="/ok/test";        JavaRDD<String> input = sc.textFile(inputFile);        //设置词之间以 “ ”间隔        JavaRDD<String> words = input.flatMap(                new FlatMapFunction<String, String>() {                    public Iterable<String> call(String s) throws Exception {                        return Arrays.asList(s.split(" "));                    }                }        );        //设置每遇到一个单词,相应的计数加1        JavaPairRDD<String, Integer> counts = words.mapToPair(                new PairFunction<String, String, Integer>() {                    public Tuple2<String, Integer> call(String s) throws Exception {                        return new Tuple2(s, 1);                    }                }                //设置遇到相同的词汇,将计数相加        ).reduceByKey(new org.apache.spark.api.java.function.Function2<Integer, Integer, Integer>() {            public Integer call(Integer integer, Integer integer2) throws Exception {                return integer+integer2;            }        });        //用列表来存储所有的单词-计数 pair        List<Tuple2<String,Integer>> output =counts.collect();        //遍历此链表        for(Tuple2 tuple: output){            System.out.println(tuple._1+": "+tuple._2);        }        //关闭集群        sc.stop();    }}输出:

Spark中的wordCount程序实现的更多相关文章
- 006 Spark中的wordcount以及TopK的程序编写
		1.启动 启动HDFS 启动spark的local模式./spark-shell 2.知识点 textFile: def textFile( path: String, minPartitions: ... 
- 50、Spark Streaming实时wordcount程序开发
		一.java版本 package cn.spark.study.streaming; import java.util.Arrays; import org.apache.spark.SparkCon ... 
- Spark中的Wordcount
		目录 通过scala语言基于local编写spark的Wordcount 基于yarn去调度WordCount 通过scala语言基于local编写spark的Wordcount import org ... 
- 在Spark上运行WordCount程序
		1.编写程序代码如下: Wordcount.scala package Wordcount import org.apache.spark.SparkConf import org.apache.sp ... 
- Spark学习之wordcount程序
		实例代码: import org.apache.spark.SparkConf; import org.apache.spark.api.java.JavaPairRDD; import org.ap ... 
- spark 中的RDD编程 -以下基于Java api
		1.RDD介绍: RDD,弹性分布式数据集,即分布式的元素集合.在spark中,对所有数据的操作不外乎是创建RDD.转化已有的RDD以及调用RDD操作进行求值.在这一切的背后,Spark会自动 ... 
- 大话Spark(3)-一图深入理解WordCount程序在Spark中的执行过程
		本文以WordCount为例, 画图说明spark程序的执行过程 WordCount就是统计一段数据中每个单词出现的次数, 例如hello spark hello you 这段文本中hello出现2次 ... 
- spark运行wordcount程序
		首先提一下spark rdd的五大核心特性: 1.rdd由一系列的分片组成,比如说128m一片,类似于hadoop中的split2.每一个分区都有一个函数去迭代/运行/计算3.一系列的依赖,比如:rd ... 
- 编写Spark的WordCount程序并提交到集群运行[含scala和java两个版本]
		编写Spark的WordCount程序并提交到集群运行[含scala和java两个版本] 1. 开发环境 Jdk 1.7.0_72 Maven 3.2.1 Scala 2.10.6 Spark 1.6 ... 
随机推荐
- .NET中公共变量与属性的区别
			在我们的程序中经常会出现以下的代码: 如: 成员变量 public string Name; 或者用属性 private string name ... 
- IE7&IE8不支持rgba的方法
			使用滤镜功能 filter:progid:DXImageTransform.Microsoft.gradient(startColorstr=#BF000000,endColorstr=#BF0000 ... 
- Excel相关问题
			Excel默认永远使用最后安装的那个Excel版本打开.但是如果有一个Excel已经启动了,则使用那个Excel打开. 1.打开“开发工具”选项卡2007中:[Excel选项]-[常用]2010中:[ ... 
- javascript的事件冒泡,阻止事件冒泡和事件委托, 事件委托是事件冒泡的一个应用。
			首先,弄明白js 当中,什么是事件,事件模型在js中是如何设计的.什么是事件冒泡? 什么是“事件冒泡”呢?假设这里有一杯水,水被用某种神奇的方式分成不同颜色的几层.这时,从最底层冒出了一个气泡,气泡会 ... 
- 自行修改android.jar使其包含隐藏api
			1) 从指定版本的rom内获取到framework.jar 2) 解压framework.jar和android sdk内的android.jar 3) 将framework.jar解出来的东西拷到a ... 
- web开发后端开源库收集
			1.Gregwar/Captcha 项目地址:https://github.com/Gregwar/Captcha 
- Python之路:堡垒机实例以及数据库操作
			一.堡垒机前戏 开发堡垒机之前,先学习Python的paramiko模块,该模块基于SSH用于连接远程服务器并执行相关操作. SSHClient 用于连接远程服务器并执行基本命令 基于用户名密码连接: ... 
- 高橋君とカード / Tak and Cards
			高橋君とカード / Tak and Cards Time limit : 2sec / Stack limit : 256MB / Memory limit : 256MB Score : 300 p ... 
- The 2014 ACMICPC Asia Regional Guangzhou Online
			[A]-_-/// [B]线段树+位运算(感觉可出) [C]地图BFS,找最长线 [D]地图BFS,加上各种复杂情况的最短路-_- [E]-_-/// [F]三分+圆与线段的交点,计算几何 [G]-_ ... 
- angular change the url , prevent reloading
			http://stackoverflow.com/questions/14974271/can-you-change-a-path-without-reloading-the-controller-i ... 
