[spark程序]统计人口平均年龄（HDFS文件）（详细过程）

一、题目描述

（1）请编写Spark应用程序，该程序可以在分布式文件系统HDFS中生成一个数据文件peopleage.txt，数据文件包含若干行（比如1000行，或者100万行等等）记录，每行记录只包含两列数据，第1列是序号，第2列是年龄。效果如下：

（2）请编写Spark应用程序，对分布式文件系统HDFS中的数据文件peopleage.txt的数据进行处理，计算出所有人口的平均年龄。

二、实现

1、在分布式文件系统HDFS中生成一个数据文件peopleage.txt

1）启动hadoop

start-dfs.sh

2）在HDFS中创建程序存放目录

hdfs dfs -mkdir -p /swy/resource/peopleage

3）编辑生成peopleage.txt的程序GeneratePeopleAgeHDFS.scala

代码：

import org.apache.spark.SparkConf

import org.apache.spark.SparkContext

import org.apache.spark.SparkContext._

import scala.util.Random

object GeneratePeopleAgeHDFS {

    def main(args: Array[String]) {

        val outFile = "hdfs://localhost:9000/swy/resource/peopleage/peopleage.txt"

        val conf = new SparkConf().setAppName("GeneratePeopleAgeHDFS").setMaster("local[2]")

        val sc = new SparkContext(conf)

        val rand = new Random()

        val array = new Array[String](1000)

        for(i <- 1 to 1000) {

            array(i-1) = i +" "+ rand.nextInt(100)

        }

        val rdd = sc.parallelize(array)

        rdd.foreach(println)

        rdd.saveAsTextFile(outFile)

    }

}

4）打包运行

5）可以看到HDFS中已经有了peopleage.txt文件

查看：

2、计算平均年龄

使用前面创建的CountAvgage.scala文件

运行：

结果：

原文：http://dblab.xmu.edu.cn/blog/1756-2/

[spark程序]统计人口平均年龄（HDFS文件）（详细过程）的更多相关文章

[spark程序]统计人口平均年龄（本地文件）（详细过程）
一.题目描述 (1)编写Spark应用程序,该程序可以在本地文件系统中生成一个数据文件peopleage.txt,数据文件包含若干行(比如1000行,或者100万行等等)记录,每行记录只包含两列数据, ...
HDFS 文件读写过程
HDFS 文件读写过程 HDFS 文件读取剖析客户端通过调用FileSystem对象的open()来读取希望打开的文件.对于HDFS来说,这个对象是分布式文件系统的一个实例. Distributed ...
记录一次用宝塔部署微信小程序Node.js后端接口代码的详细过程
一直忙着写毕设,上一次写博客还是元旦,大半年过去了.... 后面会不断分享各种新项目的源码与技术.欢迎关注一起学习哈! 记录一次部署微信小程序Node.js后端接口代码的详细过程,使用宝塔来部署. 我 ...
Spark设置自定义的InputFormat读取HDFS文件
本文通过MetaWeblog自动发布,原文及更新链接:https://extendswind.top/posts/technical/problem_spark_reading_hdfs_serial ...
Hadoop之HDFS文件读写过程
一.HDFS读过程 1.1 HDFS API 读文件 Configuration conf = new Configuration(); FileSystem fs = FileSystem.get( ...
HDFS文件读写过程
参考自<Hadoop权威指南> [http://www.cnblogs.com/swanspouse/p/5137308.html] HDFS读文件过程: 客户端通过调用FileSyste ...
JNI初级：android studio生成so文件详细过程
本文主要参考blog:http://blog.csdn.net/jkan2001/article/details/54316375 下面是本人结合blog生成so包过程中遇到一些问题和解决方法 (1) ...
大数据技术之_19_Spark学习_01_Spark 基础解析 + Spark 概述 + Spark 集群安装 + 执行 Spark 程序
第1章 Spark 概述1.1 什么是 Spark1.2 Spark 特点1.3 Spark 的用户和用途第2章 Spark 集群安装2.1 集群角色2.2 机器准备2.3 下载 Spark 安装包2 ...
hdfs读写删除过程解析
一.hdfs文件读取过程 hdfs有一个FileSystem实例,客户端通过调用这个实例的open()方法就可以打开系统中希望读取的文件,hdfs通过rpc协议调用Nadmenode获取block的位 ...

随机推荐

spring在IoC容器中装配Bean详解
1.Spring配置概述 1.1.概述 Spring容器从xml配置.java注解.spring注解中读取bean配置信息,形成bean定义注册表: 根据bean定义注册表实例化bean: 将bean ...
后缀数组（SA）
学习了LRJ神犇的代码.orz. 首先真心建议了解下基数排序!!且要有一定的c++程序经验,否则程序很难看懂. 然后对着下面的程序调试(假装你已经会了算法思想) 弄个一个礼拜一下午就能学会了. 该算法 ...
基于Spring Boot的问答系统之一：elasticsearch 7.2的hello world入门
好久没有写代码了,最近想做一个基于spring boot + vue + elasticsearch + NLP(语义相关性)的小系统练练手,系统后面可以成为一个聊天机器人,客服系统的原型等等. 所以 ...
NetworkManager网络通讯_Example（一）
---恢复内容开始--- 用户手册,范例精讲. 用户手册上给出了一个简单的范例,并指出可以以此为基础进行相开发,再次对范例进行精讲.(NetworkManager对使用unity的轻量级游戏开发有很大 ...
ArcGIS制作地形图【详细步骤】
结果图: 详细步骤: 一.在ArcSence中加载带有投影坐标系的dem数据 Dem的属性设置为下图可有上面的效果. 二.提取栅格范围找到工具[3D Analyst][转换][栅格范围]双击打开设置 ...
chrome安装json美化软件 JSONView
安装效果如下: 安装步骤: 1.下载地址: github地址:https://github.com/gildas-lormeau/JSONView-for-Chrome 2.解压文件 3.打开谷歌浏览 ...
Linux上安装mysql，实现主从复制
MYSQL(mariadb) MariaDB数据库管理系统是MySQL的一个分支,主要由开源社区在维护,采用GPL授权许可.开发这个分支的原因之一是:甲骨文公司收购了MySQL后,有将MySQL闭源的 ...
一个开源组件 bug 引发的分析
这是一个悲伤的故事.某日清晨,距离版本转测还剩一天,切图仔的我正按照计划有条不紊的画页面.当我点击一个下拉弹框组件中分页组件页数过多而出现的向后 5 页省略号时,悲剧开始了,弹框被收回了.情景再现问 ...
作为一名程序员，你真正了解CDN技术吗？
本文导读: 物流仓库配送如何加速静态资源文件部署方式静态资源加速之CDN技术解析过程中的名词解释最后的总结 1.物流仓库配送如何加速我们还是从生活中购物的例子来展开. 将时光倒回到几年前,在 ...
redis 基本类型和命令（一）
一.Redis支持五种数据类型:string(字符串),hash(哈希),list(列表),set(集合)及zset(sorted set:有序集合). (1) string类型是Redis最基本的数 ...

[spark程序]统计人口平均年龄（HDFS文件）（详细过程）

[spark程序]统计人口平均年龄（HDFS文件）（详细过程）的更多相关文章

随机推荐

热门专题