关于spark的mllib学习总结（Java版）

本篇博客主要讲述如何利用spark的mliib构建机器学习模型并预测新的数据，具体的流程如下图所示：

加载数据对于数据的加载或保存，mllib提供了MLUtils包，其作用是Helper methods to load,save and pre-process data used in MLLib.博客中的数据是采用spark中提供的数据sample_libsvm_data.txt，其有一百个数据样本，658个特征。具体的数据形式如图所示:

加载libsvm

JavaRDD<LabeledPoint> lpdata = MLUtils.loadLibSVMFile(sc, this.libsvmFile).toJavaRDD();

LabeledPoint数据类型是对应与libsvmfile格式文件, 具体格式为： Lable(double类型），vector(Vector类型）转化dataFrame数据类型

JavaRDD<Row> jrow = lpdata.map(new LabeledPointToRow());

StructType schema = new StructType(new StructField[]{

                    new StructField("label", DataTypes.DoubleType, false, Metadata.empty()),

                    new StructField("features", new VectorUDT(), false, Metadata.empty()),

        });

SQLContext jsql = new SQLContext(sc);

DataFrame df = jsql.createDataFrame(jrow, schema);

DataFrame:DataFrame是一个以命名列方式组织的分布式数据集。在概念上，它跟关系型数据库中的一张表或者1个Python(或者R)中的data frame一样，但是比他们更优化。DataFrame可以根据结构化的数据文件、hive表、外部数据库或者已经存在的RDD构造。 SQLContext:spark sql所有功能的入口是SQLContext类，或者SQLContext的子类。为了创建一个基本的SQLContext，需要一个SparkContext。特征提取特征归一化处理

StandardScaler scaler = new StandardScaler().setInputCol("features").setOutputCol("normFeatures").setWithStd(true);

DataFrame scalerDF = scaler.fit(df).transform(df);

scaler.save(this.scalerModelPath);

利用卡方统计做特征提取

ChiSqSelector selector = new ChiSqSelector().setNumTopFeatures().setFeaturesCol("normFeatures").setLabelCol("label").setOutputCol("selectedFeatures");

ChiSqSelectorModel chiModel = selector.fit(scalerDF);

DataFrame selectedDF = chiModel.transform(scalerDF).select("label", "selectedFeatures");

chiModel.save(this.featureSelectedModelPath);

训练机器学习模型（以SVM为例）

//转化为LabeledPoint数据类型， 训练模型

JavaRDD<Row> selectedrows = selectedDF.javaRDD();

JavaRDD<LabeledPoint> trainset = selectedrows.map(new RowToLabel());

//训练SVM模型, 并保存

int numIteration = ;

SVMModel model = SVMWithSGD.train(trainset.rdd(), numIteration);

model.clearThreshold();

model.save(sc, this.mlModelPath);

// LabeledPoint数据类型转化为Row

static class LabeledPointToRow implements Function<LabeledPoint, Row> {

        public Row call(LabeledPoint p) throws Exception {

            double label = p.label();

            Vector vector = p.features();

            return RowFactory.create(label, vector);

        }

    }

//Rows数据类型转化为LabeledPoint

static class RowToLabel implements Function<Row, LabeledPoint> {

        public LabeledPoint call(Row r) throws Exception {

            Vector features = r.getAs();

            double label = r.getDouble();

            return new LabeledPoint(label, features);

        }

    }

测试新的样本测试新的样本前，需要将样本做数据的转化和特征提取的工作，所有刚刚训练模型的过程中，除了保存机器学习模型，还需要保存特征提取的中间模型。具体代码如下:

//初始化spark

SparkConf conf = new SparkConf().setAppName("SVM").setMaster("local");

conf.set("spark.testing.memory", "");

SparkContext sc = new SparkContext(conf);

//加载测试数据

JavaRDD<LabeledPoint> testData = MLUtils.loadLibSVMFile(sc, this.predictDataPath).toJavaRDD();

//转化DataFrame数据类型

JavaRDD<Row> jrow =testData.map(new LabeledPointToRow());

        StructType schema = new StructType(new StructField[]{

                    new StructField("label", DataTypes.DoubleType, false, Metadata.empty()),

                    new StructField("features", new VectorUDT(), false, Metadata.empty()),

        });

SQLContext jsql = new SQLContext(sc);

DataFrame df = jsql.createDataFrame(jrow, schema);

        //数据规范化

StandardScaler scaler = StandardScaler.load(this.scalerModelPath);

DataFrame scalerDF = scaler.fit(df).transform(df);

        //特征选取

ChiSqSelectorModel chiModel = ChiSqSelectorModel.load( this.featureSelectedModelPath);

DataFrame selectedDF = chiModel.transform(scalerDF).select("label", "selectedFeatures");

测试数据集

SVMModel svmmodel = SVMModel.load(sc, this.mlModelPath);

JavaRDD<Tuple2<Double, Double>> predictResult = testset.map(new Prediction(svmmodel)) ;

predictResult.collect();

static class Prediction implements Function<LabeledPoint, Tuple2<Double , Double>> {

        SVMModel model;

        public Prediction(SVMModel model){

            this.model = model;

        }

        public Tuple2<Double, Double> call(LabeledPoint p) throws Exception {

            Double score = model.predict(p.features());

            return new Tuple2<Double , Double>(score, p.label());

        }

    }

计算准确率

double accuracy = predictResult.filter(new PredictAndScore()).count() * 1.0 / predictResult.count();

System.out.println(accuracy);

static class PredictAndScore implements Function<Tuple2<Double, Double>, Boolean> {

        public Boolean call(Tuple2<Double, Double> t) throws Exception {

            double score = t._1();

            double label = t._2();

            System.out.print("score:" + score + ", label:"+ label);

            if(score >= 0.0 && label >= 0.0) return true;

            else if(score < 0.0 && label < 0.0) return true;

            else return false;

        }

    }

关于spark的mllib学习总结（Java版）的更多相关文章

spark Using MLLib in Scala/Java/Python
Using MLLib in ScalaFollowing code snippets can be executed in spark-shell. Binary ClassificationThe ...
布隆过滤器(Bloom Filter)-学习笔记-Java版代码(挖坑ing)
布隆过滤器解决"面试题: 如何建立一个十亿级别的哈希表,限制内存空间" "如何快速查询一个10亿大小的集合中的元素是否存在" 如题布隆过滤器确实很神奇, 简单 ...
spark读文件写mysql(java版)
package org.langtong.sparkdemo; import com.fasterxml.jackson.databind.ObjectMapper; import org.apach ...
20165234 [第二届构建之法论坛] 预培训文档(Java版) 学习总结
[第二届构建之法论坛] 预培训文档(Java版) 学习总结我通读并学习了此文档,并且动手实践了一遍.以下是我学习过程的记录~ Part1.配置环境配置JDK 原文中提到了2个容易被混淆的概念 JD ...
Java基础及JavaWEB以及SSM框架学习笔记Xmind版
Java基础及JavaWEB以及SSM框架学习笔记Xmind版转行做程序员也1年多了,最近开始整理以前学习过程中记录的笔记,以及一些容易犯错的内容.现在分享给网友们.笔记共三部分. JavaSE 目 ...
Spark中的各种action算子操作（java版）
在我看来,Spark编程中的action算子的作用就像一个触发器,用来触发之前的transformation算子.transformation操作具有懒加载的特性,你定义完操作之后并不会立即加载,只有 ...
PetaPojo —— JAVA版的PetaPoco
背景由于工作的一些原因,需要从C#转成JAVA.之前PetaPoco用得真是非常舒服,在学习JAVA的过程中熟悉了一下JAVA的数据组件: MyBatis 非常流行,代码生成也很成熟,性能也很好.但 ...
python实现文章或博客的自动摘要(附java版开源项目)
python实现文章或博客的自动摘要(附java版开源项目) 写博客的时候,都习惯给文章加入一个简介.现在可以自动完成了!TF-IDF与余弦相似性的应用(三):自动摘要 - 阮一峰的网络日志http: ...
复利计算--4.0 单元测试之JAVA版-软件工程
复利计算--4.0 单元测试-软件工程前言:由于本人之前做的是C语言版的复利计算,所以为了更好地学习单元测试,于是将C语言版的复利计算修改为JAVA版的. 一.主要的功能需求细分: 1.本金为100 ...

随机推荐

kubernetes-PetSet
什么是Pet?Pet是一个有状态应用程序,本质上它是一个具有确定性名称以及唯一身份的Pod,身份内容包括: DNS中可以识别的固定hostname 顺序化索引(Pet名称组成:PetSetName-O ...
android.DataBindingUtil
import android.databinding.DataBindingUtil import android.os.Bundle import android.support.v7.app.Ap ...
Spring学习笔记--Spring IOC
沿着我们上一篇的学习笔记,我们继续通过代码学习IOC这一设计思想. 6.Hello类第一步:首先创建一个类Hello package cn.sxt.bean; public class Hello ...
day_5.29 网络编程QQDemo.
2018-5-29 16:58:13 明天回学校玩几天给郭星辰过生日实现一个QQDemo (多线程完成,因为那部分视频损坏没看) ''' from threading import Thread f ...
G - 生日蛋糕
7月17日是Mr.W的生日,ACM-THU为此要制作一个体积为Nπ的M层生日蛋糕,每层都是一个圆柱体. 设从下往上数第i(1 <= i <= M)层蛋糕是半径为Ri, 高度为Hi的圆柱.当 ...
京东无人超市的成长之路如何利用AI技术在零售业做产品创新？
随着消费及用户体验的需求升级.人货场的运营效率需求提升.人工智能技术的突破以及零售基础设施的变革等因素共同推动了第四次零售革命的到来,不仅在国内,国外一线巨头互联网亚马逊等企业都在研发无人驾驶.无人超 ...
如何查看目前正在使用的Windows10是哪个版本？
其实相当的简单: win+R 输入winver,就会出现如下图的信息: 就能看到版本信息了
[No0000E3]C# 数据类型
在 C# 中,变量分为以下几种类型: 值类型(Value types) 引用类型(Reference types) 指针类型(Pointer types) 值类型(Value types) 值类型变量 ...
day13: 迭代器和生成器
1,思考所有可以被for循环的:list,tuple,set,dict,range,enumerate,f,str,差不多了,为何这些数据类型可以被for循环呢? 2,一个标准的装饰器函数 from ...
Android Studio自动排版的两种方法
Android Studio这样的集成开发环境虽然代码自动化程度很高,但是自动化程度高导致人的自主性就下降了,而且总是依赖编辑器的功能也会搞得代码排版很别扭. 最难受的是你在Android Studi ...

关于spark的mllib学习总结（Java版）

关于spark的mllib学习总结（Java版）的更多相关文章

随机推荐

热门专题