Spark 大数据文本统计

此程序功能：

１．完成对10.４G.csv文件各个元素频率的统计　

２．获得最大的统计个数

３．对获取到的统计个数进行降序排列

４．对各个元素出现次数频率的统计

import org.apache.spark.{SparkConf, SparkContext}

/**

  */

object 大数据统计 {

  def main(args: Array[String]): Unit = {

    val conf=new SparkConf().setAppName("大数据").setMaster("local[4]")

    val sc=new SparkContext(conf)

//    val text= sc.textFile("/home/soyo/桌面/shell编程测试/1.txt")

val text= sc.textFile("/home/soyo/下载/Hadoop+Spark+Hbase/all2.csv")

    //text.foreach(println)

    val wordcount= text.flatMap(line=>line.split(",")).map(word=>(word,))

         .reduceByKey((a,b)=>a+b)

        wordcount.collect().foreach(println)

//    wordcount.saveAsTextFile("/home/soyo/桌面/shell编程测试/1-1-1.txt")

        println("单独文件中各个数的统计个数")

//        wordcount.map(_._2).foreach(println)

    println("获取统计的最大数")

   // wordcount.map(_._2).saveAsTextFile("/home/soyo/下载/Hadoop+Spark+Hbase/77.txt")

    println(wordcount.map(_._2).max())

        println("对获取到的数降序排列")

        wordcount.map(_._2).sortBy(x=>x,false).foreach(println)  //false:降序 true:升序

       println("转变为key-value形式")

        wordcount.map(_._2).map(num=>(num,)).reduceByKey((a,b)=>a+b).foreach(println)

        println("对key-value按key再排序,获得结果表示：假设文件中'soyo5'总共出现10次,可文件'soyo1'也出现10次,最后整个排序获得的是（10,2）10次的共出现２次")

    wordcount.map(_._2).map(num=>(num,)).reduceByKey((a,b)=>a+b).sortByKey().foreach(println)

  }

}

数据内容：

Spark 保存的文件是这样的：

这里可以用一个脚本将这么多的文件进行合并：

#!/bin/bash

cat * >>soyoo.txt

结果太多只写一个：

获取统计的最大数
294887496　（数据中有一个元素出现了这么多次)

Spark 大数据文本统计的更多相关文章

C#大数据文本高效去重
C#大数据文本高效去重转载请注明出处 http://www.cnblogs.com/Huerye/ TextReader reader = File.OpenText(@"C:\Users ...
SQL大数据操作统计
SQL大数据操作统计 1:select count(*) from table的区别SELECT object_name(id) as TableName,indid,rows,rowcnt FROM ...
学习Hadoop+Spark大数据巨量分析与机器学习整合开发-windows利用虚拟机实现模拟多节点集群构建
记录学习<Hadoop+Spark大数据巨量分析与机器学习整合开发>这本书. 第五章 Hadoop Multi Node Cluster windows利用虚拟机实现模拟多节点集群构建 5 ...
教你如何成为Spark大数据高手？
教你如何成为Spark大数据高手? Spark目前被越来越多的企业使用,和Hadoop一样,Spark也是以作业的形式向集群提交任务,那么如何成为Spark大数据高手?下面就来个深度教程. Spark ...
Spark大数据针对性问题。
1.海量日志数据,提取出某日访问百度次数最多的那个IP. 解决方案:首先是将这一天,并且是访问百度的日志中的IP取出来,逐个写入到一个大文件中.注意到IP是32位的,最多有个2^32个IP.同样可以采 ...
Azure HDInsight 和 Spark 大数据实战(一)
What is HDInsight? Microsoft Azure HDInsight 是基于 Hortonoworks Data Platform (HDP) 的 Hadoop 集群,包括Stor ...
Spark大数据的学习历程
Spark主要的编程语言是Scala,选择Scala是因为它的简洁性(Scala可以很方便在交互式下使用)和性能(JVM上的静态强类型语言).Spark支持Java编程,但对于使用Java就没有了Sp ...
【福利】送Spark大数据平台视频学习资料
没有套路真的是送!! 大家都知道,大数据行业spark很重要,那话我就不多说了,贴心的大叔给你找了份spark的资料. 多啰嗦两句,一个好的程序猿的基本素养是学习能力和自驱力.视频给了你们,能不能 ...
小试牛刀ElasticSearch大数据聚合统计
ElasticSearch相信有不少朋友都了解,即使没有了解过它那相信对ELK也有所认识E即是ElasticSearch.ElasticSearch最开始更多用于检索,作为一搜索的集群产品简单易用绝对 ...

随机推荐

银河英雄传说（codevs 1540）
题目描述 Description 公元五八○一年,地球居民迁移至金牛座α第二行星,在那里发表银河联邦创立宣言,同年改元为宇宙历元年,并开始向银河系深处拓展. 宇宙历七九九年,银河系的两大军事集团在巴米 ...
Python基础教程笔记——第5章：条件，循环和其他语句
5.1 print和import的更多信息 1. print()3.0之后print不再是语句,而是函数, >>> print('udg',12,13) udg 12 13 &g ...
hdu 4923 Room and Moor [ 找规律 + 单调栈 ]
传送门 Room and Moor Time Limit: 12000/6000 MS (Java/Others) Memory Limit: 262144/262144 K (Java/Oth ...
iOS tableview上textView在编辑状态时，tableview自动上移的功能
在viewcognroller中,添加tableview时, tableview中cell上的textField如果吊起键盘时,tableview时可以自动上移,但是如果是textView吊起键盘,t ...
hdu6212 祖玛（区间DP）
题意有一个长度为n的01串,我们可以在某个地方插入一个0或者1,那么如果有连续颜色相同的>=3个,那么这段就会消去,两边的合拢.问将所有01串消去,最少需要插入多少个.(n<=200) ...
stored procedure --存储过程
存储过程(Stored Procedure),计算机用语,是一组为了完成特定功能的SQL语句集,是利用SQL Server所提供的Transact-SQL语言所编写的程序.经编译后存储在数据库中.存储 ...
Python的描述符
1.描述符的定义描述符是与特定属性互相绑定的一种协议,通过方法被触发修改属性,这些方法包括__get__(),__set__(),__delete__().将这些方法定义在类中,即可实现描述符 2. ...
携程Apollo（阿波罗）配置中心Spring Boot迁移日志组件，使用配置中心进行管理的思路
说明: 1.Spring Boot项目默认使用logback进行日志管理 2.logback在启动时默认会自动检查是否有logback.xml文件,如果有时会有限加载这个文件. 3.那么如果是用配置中 ...
Java8初体验（二）Stream语法详解(转)
本文转自http://ifeve.com/stream/ Java8初体验(二)Stream语法详解感谢同事[天锦]的投稿.投稿请联系 tengfei@ifeve.com上篇文章Java8初体验(一 ...
[转]JS 引擎的执行机制
转: https://www.cnblogs.com/wancheng7/p/8321418.html ------------------------------------------------ ...

Spark 大数据文本统计

Spark 大数据文本统计的更多相关文章

随机推荐

热门专题