spark MLlib DataType ML中的数据类型

package ML.DataType;

import org.apache.spark.SparkConf;

import org.apache.spark.api.java.JavaRDD;

import org.apache.spark.api.java.JavaSparkContext;

import org.apache.spark.mllib.linalg.*;

import org.apache.spark.mllib.linalg.distributed.*;

import org.apache.spark.mllib.regression.LabeledPoint;

import org.apache.spark.mllib.util.MLUtils;

import java.util.Arrays;

/**

 * TODO

 *

 * @ClassName: DataType

 * @author: DingH

 * @since: 2019/4/3 10:06

 */

public class DataType {

    public static void main(String[] args) {

        SparkConf conf = new SparkConf().setMaster("local").setAppName("Datatype");

        JavaSparkContext javaSparkContext = new JavaSparkContext(conf);

        /**

         * @Title: vectors.dense方法生成向量，sparse生成稀疏向量。第一个3是向量的大小，第二个列表是不为0的下表，第三个是对应的value.

         */

        Vector dense = Vectors.dense(1.0, 0.0, 3.0);

        Vector sparse = Vectors.sparse(3, new int[]{0, 2}, new double[]{1.0, 3.0});

        /**

         * @Title: 对向量进行标记，1.0为正，0.0为负

         */

        LabeledPoint labeledPoint = new LabeledPoint(1.0, dense);

        LabeledPoint labeledPoint1 = new LabeledPoint(0.0, sparse);

        /**

         * @Title: libSVM文件： lable1  index1:value1  index2:value2

         */

        JavaRDD<LabeledPoint> labeledPointJavaRDD = MLUtils.loadLibSVMFile(javaSparkContext.sc(), "/data...").toJavaRDD();

        /**

         * @Title: matricex.dense生成矩阵。3*2的矩阵  列式优先

         * [1.0 2.0

         * 3.0 4.0

         * 5.0 6.0]

         */

        Matrix dense1 = Matrices.dense(3, 2, new double[]{1.0, 3.0, 5.0, 2.0, 4.0, 6.0});

        /**

         * @Title: matricex.sparse生成稀疏矩阵。3*2的矩阵。第三个参数和第四个参数对应为不为0的元素。

         * [9 0

         * 0 6

         * 0 8]     第三个参数： 1-0=1，3-1=2，每列不为0的元素分别是1个和2个。   第四个参数，从头开始遍历行，不为0的行。

         */

        Matrix sparse1 = Matrices.sparse(3, 2, new int[]{0, 1, 3}, new int[]{0, 2, 1}, new double[]{9, 6, 8});

        /**

         * @Title: Rowmatrix

         */

        JavaRDD<Vector> parallelize = javaSparkContext.parallelize(Arrays.asList(

                Vectors.dense(1, 2, 3),

                Vectors.dense(2, 3, 4),

                Vectors.dense(3, 4, 5)

        ));

        RowMatrix rowMatrix = new RowMatrix(parallelize.rdd());

        long l = rowMatrix.numRows();

        long l1 = rowMatrix.numCols();

        QRDecomposition<RowMatrix, Matrix> rowMatrixMatrixQRDecomposition = rowMatrix.tallSkinnyQR(true);

        /**

         * @Title: IndexedRowMatrix

         */

        JavaRDD<IndexedRow> parallelize1 = javaSparkContext.parallelize(Arrays.asList(

                new IndexedRow(1, dense),

                new IndexedRow(2, dense),

                new IndexedRow(3, dense)

        ));

        IndexedRowMatrix indexedRowMatrix = new IndexedRowMatrix(parallelize1.rdd());

        long l2 = indexedRowMatrix.numCols();

        long l3 = indexedRowMatrix.numRows();

        RowMatrix rowMatrix1 = indexedRowMatrix.toRowMatrix();

        /**

         * @Title: CoordinateMatrix

         */

        JavaRDD<MatrixEntry> parallelize2 = javaSparkContext.parallelize(Arrays.asList(

                new MatrixEntry(0, 1, 3),

                new MatrixEntry(1, 3, 1),

                new MatrixEntry(2, 1, 1)

        ));

        CoordinateMatrix coordinateMatrix = new CoordinateMatrix(parallelize2.rdd());

        long l4 = coordinateMatrix.numCols();

        long l5 = coordinateMatrix.numRows();

        IndexedRowMatrix indexedRowMatrix1 = coordinateMatrix.toIndexedRowMatrix();

        /**

         * @Title: BlocakMatrix 。   toBlockMatrix可以设置参数，规定row,col的大小，默认1024*1024

         */

        BlockMatrix cache = indexedRowMatrix.toBlockMatrix().cache();

        BlockMatrix cache1 = coordinateMatrix.toBlockMatrix().cache();

        cache.validate();

        BlockMatrix multiply = cache.transpose().multiply(cache);

    }

}

spark MLlib DataType ML中的数据类型的更多相关文章

spark mllib和ml类里面的区别
mllib是老的api,里面的模型都是基于RDD的,模型使用的时候api也是有变化的(model这里是naiveBayes), (1:在模型训练的时候是naiveBayes.run(data: RDD ...
Spark MLlib数据类型
MLlib支持几种数据类型:本地向量(local vectors),和存储在一个简单机器中的矩阵(matrices),以及由一个或多个RDDs组成的分布式矩阵. 1,本地向量(Local Ve ...
在Java Web中使用Spark MLlib训练的模型
PMML是一种通用的配置文件,只要遵循标准的配置文件,就可以在Spark中训练机器学习模型,然后再web接口端去使用.目前应用最广的就是基于Jpmml来加载模型在javaweb中应用,这样就可以实现跨 ...
Spark的MLlib和ML库的区别
机器学习库(MLlib)指南 MLlib是Spark的机器学习(ML)库.其目标是使实际的机器学习可扩展和容易.在高层次上,它提供了如下工具: ML算法:通用学习算法,如分类,回归,聚类和协同过滤特 ...
基于spark Mllib(ML)聚类实战
写在前面的话:由于spark2.0.0之后ML中才包括LDA,GaussianMixture 模型,这里k-means用的是ML模块做测试,LDA,GaussianMixture 则用的是ML ...
Spark Mllib里的Mllib基本数据类型（图文详解）
不多说,直接上干货! Spark Mllib基本数据类型,根据不同的作用和应用场景,分为四种不同的类型 1.Local vector : 本地向量集,主要向spark提供一组可进行操作的数据集合 2 ...
转载：Databricks孟祥瑞：ALS 在 Spark MLlib 中的实现
Databricks孟祥瑞:ALS 在 Spark MLlib 中的实现发表于2015-05-07 21:58| 10255次阅读| 来源<程序员>电子刊| 9 条评论| 作者孟祥瑞大 ...
Spark MLlib中KMeans聚类算法的解析和应用
聚类算法是机器学习中的一种无监督学习算法,它在数据科学领域应用场景很广泛,比如基于用户购买行为.兴趣等来构建推荐系统. 核心思想可以理解为,在给定的数据集中(数据集中的每个元素有可被观察的n个属性), ...
Apache Spark源码走读之23 -- Spark MLLib中拟牛顿法L-BFGS的源码实现
欢迎转载,转载请注明出处,徽沪一郎. 概要本文就拟牛顿法L-BFGS的由来做一个简要的回顾,然后就其在spark mllib中的实现进行源码走读. 拟牛顿法数学原理代码实现 L-BFGS算法中使 ...

随机推荐

PostgreSQL安装详细步骤windows
PostgreSQL安装:一.windows下安装过程安装介质:postgresql-9.1.3-1-windows.exe(46M),安装过程非常简单,过程如下:1.开始安装: 2.选择程序安装目录 ...
数据分析---《Python for Data Analysis》学习笔记【04】
<Python for Data Analysis>一书由Wes Mckinney所著,中文译名是<利用Python进行数据分析>.这里记录一下学习过程,其中有些方法和书中不同 ...
Lua语法基础（一）
1. 注释 -- 单行注释 --[[ 多行注释 --]] 2. 运行方式 (1)交互式运行命令行下 lua进入交互模式 (2)命令行运行 lua + ...
Linux安装Tomcat8
前置条件安装jdk,见参考文章下载Tomcat8 先从tomcat网站上下载最新的.gz安装包 tomcat官网下载地址在下面找到Linux对应的tomcat安装包我下载的文件名是:apach ...
pytest 9 pytest-datadir读取文件信息
安装:pip install pytest-datadir 介绍:用于操作测试数据目录和文件的插件.pytest-datadir他会寻找包含测试模块名字的文件夹或者全局的一个文件夹名字为data下的数 ...
centos7搭建gitlab服务器、汉化
1.下载rpm安装包 https://mirrors.tuna.tsinghua.edu.cn/gitlab-ce/yum/el7/gitlab-ce-8.8.5-ce.1.el7.x86_64.rp ...
jmeter循环控制器加jdbc req结果配合组合参数遍历
jdbc请求:jdbc sampler 保存结果中三个变量名循环控制器:xhkzq 的循环次数填写:${其中一个变量名_#} 循环控制器里面:http sampler ,前置处理器,取消c ...
闭包创建自己的 plugin 示例加载 loading
plugin 插件什么是 plugin? 实现一个功能,与主应用程序分离,减少主应用程序的大小,高复用,可维护制作过程中,一定要避免依赖其他的元素,减少 id 等的使用,避免与页面中其他内容冲突 ...
【转载】 C++之split字符串分割
https://blog.csdn.net/mary19920410/article/details/77372828
轴对称 Navier-Stokes 方程组的点态正则性准则 I
在 [Lei, Zhen; Zhang, Qi. Criticality of the axially symmetric Navier-Stokes equations. Pacific J. Ma ...

spark MLlib DataType ML中的数据类型

spark MLlib DataType ML中的数据类型的更多相关文章

随机推荐

热门专题