Spark实战练习01--XML数据处理

一、要求

将XML中的account_number、model数据提取出来，并以account_number：model格式存储

1、XML文件数据格式

<activations>

　　<activation timestamp="1225499258" type="phone">

　　<account-number>316</account-number>

　　<device-id>

　　　　d61b6971-33e1-42f0-bb15-aa2ae3cd8680

　　</device-id>

　　<phone-number>5108307062</phone-number>

　　<model>iFruit 1</model>

　　</activation>

…

</activations>

2、存储格式：

1234:iFruit 1
987:Sorrento F00L
4566:iFruit 1

二、代码

import scala.xml._

//给定一个包含XML的字符串，解析字符串，并返回字符串中包含的激活XML记录(节点)的迭代器

def getactivations(xmlstring: String): Iterator[Node] = {

    val nodes = XML.loadString(xmlstring) \\ "activation"

    nodes.toIterator

}

// 给定一个激活记录(XML节点)，返回模型名称

def getmodel(activation: Node): String = {

   (activation \ "model").text

}

// 给定一个激活记录(XML节点)，返回帐号

def getaccount(activation: Node): String = {

   (activation \ "account-number").text

}

//mydata1:(0："路径":1："内容")

//wholeTextFiles 创建包含文件名、文件内容的RDD

var mydata1 = sc.wholeTextFiles("file:/home/training/training_materials/data/activations/")

//flatmap 遍历RDD中的文件内容得到文件内容的RDD

val mydata2=mydata1.flatMap(line => getactivations(line._2))

//通过函数获取对应节点的值，创建account-number:model RDD

val mydata3=mydata2.map(line => getaccount(line)+":"+getmodel(line))

//输出数据，测试数据格式

mydata3.take(10).foreach(println)

三、函数解释

sc.wholeTextFiles (directory)

　　从HDFS中读取文本文件的目录，本地文件系统(在所有节点上可用)，或者任何hadoop支持的文件系统URI。每个文件被读取为单个记录，然后返回到键值对中，其中键是每个文件的路径，值是每个文件的内容。

例如：

　　(filel.json,{"firstName":"Fred","lastName":"Flintstone","userid":"123"} )
　　(file2.json,{"firstName":"Barney","lastName":"Rubble","userid":"234"} )
　　(file3.json,... )
　　(file4.json,... )

Spark实战练习01--XML数据处理的更多相关文章

Spark实战--搭建我们的Spark分布式架构
Spark的分布式架构如我们所知,spark之所以强大,除了强大的数据处理功能,另一个优势就在于良好的分布式架构.举一个例子在Spark实战--寻找5亿次访问中,访问次数最多的人中,我用四个spar ...
非等高cell实战（01）-- 实现微博页面
非等高cell实战(01)-- 实现微博页面学习过UITableView.AutoLayout以及MVC的相关知识,接下来通过一个微博页面实战来整合一下. 首先看一下效果图: 需求分析此页面为非等 ...
Spark实战1
1. RDD-(Resilient Distributed Dataset)弹性分布式数据集 Spark以RDD为核心概念开发的,它的运行也是以RDD为中心.有两种RDD:第一种是并行Col ...
对于maven创建spark项目的pom.xml配置文件（图文详解）
不多说,直接上干货! http://mvnrepository.com/ 这里,怎么创建,见 Spark编程环境搭建(基于Intellij IDEA的Ultimate版本)(包含Java和Scala版 ...
JSP XML 数据处理
JSP XML 数据处理当通过HTTP发送XML数据时,就有必要使用JSP来处理传入和流出的XML文档了,比如RSS文档.作为一个XML文档,它仅仅只是一堆文本而已,使用JSP创建XML文档并不比创 ...
Spark GraphX宝刀出鞘，图文并茂研习图计算秘笈与熟练的掌握Scala语言【大数据Spark实战高手之路】
Spark GraphX宝刀出鞘,图文并茂研习图计算秘笈大数据的概念与应用,正随着智能手机.平板电脑的快速流行而日渐普及,大数据中图的并行化处理一直是一个非常热门的话题.图计算正在被广泛地应用于社交 ...
JSP XML数据处理
JSP XML数据处理当通过HTTP发送XML数据时,就有必要使用JSP来处理传入和流出的XML文档了,比如RSS文档.作为一个XML文档,它仅仅只是一堆文本而已,使用JSP创建XML文档并不比创建 ...
Spark入门实战系列--6.SparkSQL（下）--Spark实战应用
[注]该系列文章以及使用到安装包/测试数据可以在<倾情大奉送--Spark入门实战系列>获取 .运行环境说明 1.1 硬软件环境线程,主频2.2G,10G内存 l 虚拟软件:VMwa ...
Spark实战之读写HBase
1 配置 1.1 开发环境: HBase:hbase-1.0.0-cdh5.4.5.tar.gz Hadoop:hadoop-2.6.0-cdh5.4.5.tar.gz ZooKeeper:zooke ...

随机推荐

Feign Form表单POST提交
Form表单的POST提交,调用该类接口最长用的方式就是HttpClient,如果使用Feign,如何实现呢? 首先,看下Http中已Form的形式做Post提交的定义: -------------- ...
bitmap和drawable的相互转化以及setImageResource(),setImageDrawable(),setImageBitmap()
从本地获取drawable图片:getResources().getDrawable(R.drawable.**) 获取bitmap:Bitmap b=BitmapFactory().decodeRe ...
18.Shiro与Springboot整合下登陆验证UserService未注入的问题
Shiro与Springboot整合下登陆验证UserService未注入的问题前言: 刚开始整合的情况下,UserService一执行,就会报空指针异常. 看了网上各位大神的讲解,什么不能用ser ...
轻量ORM-SqlRepoEx （一）SqlRepoEx介绍
一.SqlRepo项目发现SqlRepo项目库是在构建自动代码工具时.对于数据访问,在.Net下,有很多选择,比如EF,但EF使用起来,不是很方便的.以前一直使用Atk.Expression库+Sy ...
菜鸟笔记 -- Chapter 6.2.4 成员方法
6.2.4 成员方法在Java中使用成员方法对应于类对象的行为,在有些地方也会将方法称之为函数,成员方法是定义在类中具有特定功能的一段独立小程序.方法格式如下: 修饰符返回值类型成员方法名 ( ...
在CentOS7系统上安装MySQL数据库
1.下载安装MySQL官方repo文件下载MySQL的官方repo文件 [root@centos7 ~]# wget -i -c http://dev.mysql.com/get/mysql57-c ...
view围绕圆心自转
创建一个image UIImageView *imgView = [[UIImageView alloc] initWithFrame:CGRectMake(, , , )]; imgView.ima ...
统计iOS产品不同渠道的下载量
如何统计iOS产品不同渠道的下载量? 一.前言在开发过程中,Android可能会打出来很多的包,用于标识不同的商店下载量.原来觉得苹果只有一个商店:AppStore,如何做出不同来源的统计呢?本篇文 ...
关于truthy 和 falsy
一,强制类型转换 JavaScript 在需要用到布尔类型值的上下文中使用强制类型转换(Type Conversion )将值转换为布尔值,比如:在条件语句或者循环语句中一,truthy 在java ...
Django快速开发投票系统
使用Django搭建简单的投票系统:这个是官网的教程:https://docs.djangoproject.com/en/2.0/intro/tutorial01/ 在Run manage.py Ta ...