Spark RDD 到 LabelPoint的转换(包含构造临时数据的方法)

题目: 将数据的某个特征作为label, 其他特征(或其他某几个特征)作为Feature, 转为LabelPoint

参考: http://www.it1352.com/220642.html

首先构造数据

import scala.util.Random.{setSeed, nextDouble}

setSeed(1)

case class Record(foo: Double, target: Double, x1: Double, x2: Double, x3: Double)

val rows = sc.parallelize(

    (1 to 10).map(_ => Record(

        nextDouble, nextDouble, nextDouble, nextDouble, nextDouble

   ))

)

val df = sqlContext.createDataFrame(rows)

df.registerTempTable("df")

sqlContext.sql("""

  SELECT ROUND(foo, 2) foo,

         ROUND(target, 2) target,

         ROUND(x1, 2) x1,

         ROUND(x2, 2) x2,

         ROUND(x2, 2) x3

  FROM df""").show

得到的数据如下:

+----+------+----+----+----+

| foo|target|  x1|  x2|  x3|

+----+------+----+----+----+

|0.73|  0.41|0.21|0.33|0.33|

|0.01|  0.96|0.94|0.95|0.95|

| 0.4|  0.35|0.29|0.51|0.51|

|0.77|  0.66|0.16|0.38|0.38|

|0.69|  0.81|0.01|0.52|0.52|

|0.14|  0.48|0.54|0.58|0.58|

|0.62|  0.18|0.01|0.16|0.16|

|0.54|  0.97|0.25|0.39|0.39|

|0.43|  0.23|0.89|0.04|0.04|

|0.66|  0.12|0.65|0.98|0.98|

+----+------+----+----+----+

假设我们想排除x2和foo, 抽取 LabeledPoint(target, Array(x1, x3)):

import org.apache.spark.mllib.linalg.{Vector, Vectors}

import org.apache.spark.mllib.regression.LabeledPoint 

// Map feature names to indices

val featInd = List("x1", "x3").map(df.columns.indexOf(_))

// Or if you want to exclude columns

val ignored = List("foo", "target", "x2")

val featInd = df.columns.diff(ignored).map(df.columns.indexOf(_))

// Get index of target

val targetInd = df.columns.indexOf("target") 

df.rdd.map(r => LabeledPoint(

   r.getDouble(targetInd), // Get target value

   // Map feature indices to values

   Vectors.dense(featInd.map(r.getDouble(_)).toArray)

))

原文转自 http://blog.csdn.net/zrc199021/article/details/53676116

Spark RDD 到 LabelPoint的转换(包含构造临时数据的方法)的更多相关文章

[Oracle]快速构造大量数据的方法
[Oracle]快速构造大量数据的方法: create table tab001(id integer primary key, val varchar2(100)); insert into tab ...
Spark RDD概念学习系列之RDD的缓存（八）
RDD的缓存 RDD的缓存和RDD的checkpoint的区别缓存是在计算结束后,直接将计算结果通过用户定义的存储级别(存储级别定义了缓存存储的介质,现在支持内存.本地文件系统和Tachyon) ...
Spark RDD概念学习系列之RDD的转换（十）
RDD的转换 Spark会根据用户提交的计算逻辑中的RDD的转换和动作来生成RDD之间的依赖关系,同时这个计算链也就生成了逻辑上的DAG.接下来以“Word Count”为例,详细描述这个DAG生成的 ...
Spark—RDD编程常用转换算子代码实例
Spark-RDD编程常用转换算子代码实例 Spark rdd 常用 Transformation 实例: 1.def map[U: ClassTag](f: T => U): RDD[U] ...
Spark RDD概念学习系列之RDD的5大特点（五）
RDD的5大特点 1)有一个分片列表,就是能被切分,和Hadoop一样,能够切分的数据才能并行计算. 一组分片(partition),即数据集的基本组成单位,对于RDD来说,每个分片都会被一个计 ...
Spark RDD、DataFrame原理及操作详解
RDD是什么? RDD (resilientdistributed dataset),指的是一个只读的,可分区的分布式数据集,这个数据集的全部或部分可以缓存在内存中,在多次计算间重用. RDD内部可以 ...
Spark RDD深度解析-RDD计算流程
Spark RDD深度解析-RDD计算流程摘要 RDD(Resilient Distributed Datasets)是Spark的核心数据结构,所有数据计算操作均基于该结构进行,包括Spark ...
[bigdata] Spark RDD整理
1. RDD是什么RDD:Spark的核心概念是RDD (resilient distributed dataset),指的是一个只读的,可分区的弹性分布式数据集,这个数据集的全部或部分可以缓存在内存 ...
Spark RDD
对RDD的学习进行一下整理 RDD:基于内存的集群计算容错抽象分布式内存抽象的概念---弹性分布式数据集(RDD),它具备MapReduce等数据流模型的容错特性,并且允许开发人员在大型集群上执行基 ...

随机推荐

nginx location 路由的几个配置纪要
1:网上没有查到在线测试 nginx location 规则的网址在服务器上可以通过 return 返回测试比如把#号去掉 # location /admin\.php(.*) # { #def ...
springboot：bootstrap和application有什么区别？
bootstrap和application区别: Spring Cloud 构建于 Spring Boot 之上,在 Spring Boot 中有两种上下文,一种是 bootstrap,另外一种是 a ...
Scala 数组操作之数组转换
使用yield和函数式编程转换数组 // 对Array进行转换,获取的还是Array val a = Array(1, 2, 3, 4, 5) val a2 = for (ele <- a) y ...
12.Scratch编程小游戏——天上掉馅饼
最意想天开的事,就是天降我们喜欢的食物,今天我们就来编写一个接馅饼的小游戏. 游戏规划: 1.用鼠标控制小猫的来回移动 2.甜甜圈从天而降 3.小猫接到绿色的甜甜圈减一分,接到红色的甜甜圈加一分,接到 ...
Scratch编程：多彩的舞台（六）
“ 上节课的内容全部掌握了吗?反复练习了没有,编程最好的学习方法就是练习.练习.再练习.一定要记得多动手.多动脑筋哦~~” 01 — 游戏介绍这是一款简单的小游戏,实现了一个小女孩在多彩的舞台上进行 ...
flume-ng version出现错误Error: Could not find or load main class org.apache.flume.tools.GetJavaPrope的解决办法
错误: 找不到或无法加载主类 org.apache.flume.tools.GetJavaProperty或者Error: Could not find or load main class org. ...
如何加入 Skype for Business 会议？
参加一个线上培训,收到了Skype的参会地址,是这个样子的然后就是一脸懵逼的不知道怎么参加会议了.找了半天终于在同事的帮助下参加成功. 我的参加方法:在Window上用Skype for Busin ...
Centos7+puppet+foreman,实现部署OS
一.简介 1. 需要实现操作系统的部署 foreman提供了一个基于kickstart的部署工具,输入一台服务器的部署网卡的mac地址和hostname.ip等信息,就能自动的帮我们部署完,并且,还可 ...
Ubuntu下编译 Hadoop2.9
Ubuntu 下编译 Hadoop-2.9.2 系统环境系统: ubuntu-18.10-desktop-amd64 maven: Apache Maven 3.6.0 jdk: jdk_1.8.0 ...
win10重装系统修改信息
在安装win10系统之前要先进行ahci硬盘模式更改 ,以防止win10系统安装完成后出现蓝屏现象,那么如何进行ahci硬盘模式bios设置呢?今天我们就以映泰主板为大家介绍u盘装win10系统硬盘模 ...

Spark RDD 到 LabelPoint的转换(包含构造临时数据的方法)

Spark RDD 到 LabelPoint的转换(包含构造临时数据的方法)的更多相关文章

随机推荐

热门专题