scala 稀疏向量

http://mocom.xmu.edu.cn/article/show/58481eb2e083c990247075a5/0/1

1、

/创建一个标签为1.0（分类中可视为正样本）的稠密向量标注点

scala> val pos = LabeledPoint(1.0, Vectors.dense(2.0, 0.0, 8.0)) pos: org.apache.spark.mllib.regression.LabeledPoint = (1.0,[2.0,0.0,8.0])

//创建一个标签为0.0（分类中可视为负样本）的稀疏向量标注点

scala> val neg = LabeledPoint(0.0, Vectors.sparse(3, Array(0, 2), Array(2.0, 8.0)))

neg: org.apache.spark.mllib.regression.LabeledPoint = (0.0,(3,[0,2],[2.0,8.0]))

2、

def load_data(train_add:String,test_add:String):RDD[LabeledPoint]={
   val train_data=sc.textFile(train_add).map(x=>x.split(",").map(_.toInt.toDouble).toList)
     .map(x=>
       { val label=x.head
         val values=x.tail
         val r_index= new ArrayBuffer[Int]()
         val r_values = new ArrayBuffer[Double]()
         val len=values.size
         println(len)
         for (i <- 0 until len){
           println(i)
           if (values(i)==1.0){
             r_index +=i
             r_values +=values(i)
           }
         }
         val sparse_value=Vectors.sparse(len,r_index.toArray,r_values.toArray)
         LabeledPoint(label,sparse_value)
       })
  train_data
 }

scala 稀疏向量的更多相关文章

spark-mllib 密集向量和稀疏向量
spark-mllib 密集向量和稀疏向量 MLlib支持局部向量和矩阵存储在单台服务器,也支持存储于一个或者多个rdd的分布式矩阵 . 局部向量和局部矩阵是用作公共接口的最简单的数据模型. 基本的线 ...
Spark的mlib中的稠密向量和稀疏向量
spark mlib中2种局部向量:denseVector(稠密向量)和sparseVector(稀疏向量) denseVector向量的生成方法:Vector.dense() sparseVecto ...
spark 稠密向量和稀疏向量
Spark mlib的本地向量有两种: DenseVctor :稠密向量其创建方式 Vector.dense(数据) SparseVector :稀疏向量其创建方式有两种: 方法一 ...
通过spark rdd 求取特征的稀疏向量
通过spark rdd 求取特征的稀疏向量 spark 类标签的稀疏特征向量 - bonelee - 博客园 http://www.cnblogs.com/bonelee/p/7814081.h ...
Mllib数据类型（密集向量和稀疏向量）
1.局部向量 Mllib支持2种局部向量类型:密集向量(dense)和稀疏向量(sparse). 密集向量由double类型的数组支持,而稀疏向量则由两个平行数组支持. example: 向量(5.2 ...
dense向量和稀疏向量sparse
import org.apache.spark.mllib.linalg.Vectors object Test { def main(args: Array[String]) { val vd = ...
TF-IDF计算相似度为什么要对稀疏向量建立索引？
TF-IDF的向量表示的稀疏问题之前在看tf-idf代码时候思考了一个问题,不知道对于初学的大部分同学有没有这样一个疑惑,用tf-idf值构成的向量,维度可能跟词表的大小有关,那么对于一句话来说,这 ...
Spark Mllib里如何建立密集向量和稀疏向量（图文详解）
不多说,直接上干货! 具体,见 Spark Mllib机器学习实战的第4章 Mllib基本数据类型和Mllib数理统计
Spark Mllib里的本地向量集（密集型数据集和稀疏型数据集概念、构成）（图文详解）
不多说,直接上干货! Local vector : 本地向量集由两类构成:稀疏型数据集(spares)和密集型数据集(dense) (1).密集型数据集例如一个向量数据(9,5,2,7),可以设 ...

随机推荐

VS2015 C#项目工程配置emgucv依赖的方法
1.VS2015新建一个C# console工程 2.Tools->NuGet package management->manage NuGet package for solution- ...
Android Drawable Mipmap Vector使用及Vector兼容
原文地址:http://blog.csdn.net/eclipsexys/article/details/51838119 http://blog.csdn.net/qq_15545283/artic ...
【转载】CSS + DIV 实现局部布局
HTML CSS + DIV实现局部布局 1.本章教大家掌握2种布局方式: 1)顶部导航菜单布局,效果图: 2)购物版块布局,效果图: 2.技术目标:使用div + ul-li实现导航菜单布局 ...
s3express截图安装教程
1.安装s3express_setup.exe 2.设置s3express 设置服务器地址setopt -endpoint:s3.cn-north-1.amazonaws.com.cn 设置协议set ...
运用map并于执行期指定排序准则
该例展示以下技巧: 如何使用map 如何撰写和使用仿函数如何在执行期定义排序规则如何在"不在乎大小写"的情况下比较字符串 #include<iostream> #i ...
Docker集群管理（二）—— docker+swarm+etcd+shipyard
引言前一篇介绍如何简单的搭建一个可视化管理的docker集群,本篇将在此基础之上引入etcd发现服务. 目的使用etcd发现服务解决swarm内置发现服务的不稳定问题.etcd采用raft算法,这 ...
RouterOS 5.16软路由安装图解教程
说明:RouterOS是一种路由器操作系统,它可以安装到普通的个人电脑上面,替代硬件路由器 RouterOS版本:RouterOS 5.16 硬件要求: 1.支持多核CPU 2.内存最大支持到2G 3 ...
uva-331-枚举-交换的方案数
题意:冒泡排序,最小交换数的前提下有多少用方案把数组变成从小到大的顺序, 注意: 3 2 1 3的下表是1 2的是2 1的是3 交换 3 2,那么第一个交换数是1 最小交换数=逆序数的和那么,只 ...
python-log-env
logging.basicConfig(format="[%(asctime)s] %(filename)s[line:%(lineno)d] %(levelname)s: %(messag ...
0_Simple__simpleStreams
对比使用单流和多流(4条)情况下数据拷贝,以及数据拷贝加内核调用的效率差别.▶ 源代码 #include <stdio.h> #include <cuda_runtime.h> ...

scala 稀疏向量

scala 稀疏向量的更多相关文章

随机推荐

热门专题