# -*-coding=utf-8 -*-

from pyspark import SparkConf, SparkContext

sc = SparkContext('local')

import math

from pyspark.mllib.regression import LabeledPoint, IsotonicRegression, IsotonicRegressionModel

from pyspark.mllib.util import MLUtils

# Load and parse the data 加载和解析数据

def parsePoint(labeledData):

    return (labeledData.label, labeledData.features[0], 1.0)

data = MLUtils.loadLibSVMFile(sc, "data/mllib/sample_isotonic_regression_libsvm_data.txt")

# Create label, feature, weight tuples from input data with weight set to default value 1.0. 创建标签，特征，权重的元组，并设置权重默认为1.0

parsedData = data.map(parsePoint)

# Split data into training (60%) and test (40%) sets. 分割数据集

training, test = parsedData.randomSplit([0.6, 0.4], 11)

# Create isotonic regression model from training data. 创建保序回归模型

# Isotonic parameter defaults to true so it is only shown for demonstration 参数默认为true，这里只是用于展示

model = IsotonicRegression.train(training)

# Create tuples of predicted and real labels. 创建预测和真实标签的元组

predictionAndLabel = test.map(lambda p: (model.predict(p[1]), p[0]))

# Calculate mean squared error between predicted and real labels.计算预测和真实标签的均方误差

meanSquaredError = predictionAndLabel.map(lambda pl: math.pow((pl[0] - pl[1]), 2)).mean()

print("Mean Squared Error = " + str(meanSquaredError)) #Mean Squared Error = 0.00863040529956

# Save and load model

model.save(sc, "myIsotonicRegressionModel")

sameModel = IsotonicRegressionModel.load(sc, "myIsotonicRegressionModel")

print sameModel.predict(data.collect()[0].features) #0.14987251

【Spark机器学习速成宝典】模型篇08保序回归【Isotonic Regression】（Python版）的更多相关文章

103 保序回归 isotonic regression
103 保序回归 isotonic regression 2016-03-30 11:25:27 bea_tree 阅读数 6895 版权声明:本文为博主原创文章,遵循CC 4.0 BY-SA版权 ...
scikit-learn一般实例之一:保序回归(Isotonic Regression)
对生成的数据进行保序回归的一个实例.保序回归能在训练数据上发现一个非递减逼近函数的同时最小化均方误差.这样的模型的好处是,它不用假设任何形式的目标函数,(如线性).为了比较,这里用一个线性回归作为参照 ...
【Spark机器学习速成宝典】模型篇08支持向量机【SVM】（Python版）
目录什么是支持向量机(SVM) 线性可分数据集的分类线性可分数据集的分类(对偶形式) 线性近似可分数据集的分类线性近似可分数据集的分类(对偶形式) 非线性数据集的分类 SMO算法合页损失函数 ...
【机器学习速成宝典】模型篇02线性回归【LR】（Python版）
目录什么是线性回归最小二乘法一元线性回归多元线性回归什么是规范化 Python代码(sklearn库) 什么是线性回归(Linear regression) 引例假设某地区租房价格只与房屋 ...
【Spark机器学习速成宝典】模型篇07梯度提升树【Gradient-Boosted Trees】（Python版）
目录梯度提升树原理梯度提升树代码(Spark Python) 梯度提升树原理待续... 返回目录梯度提升树代码(Spark Python) 代码里数据:https://pan.baidu.co ...
【Spark机器学习速成宝典】模型篇06随机森林【Random Forests】（Python版）
目录随机森林原理随机森林代码(Spark Python) 随机森林原理参考:http://www.cnblogs.com/itmorn/p/8269334.html 返回目录随机森林代码(Sp ...
【Spark机器学习速成宝典】模型篇05决策树【Decision Tree】（Python版）
目录决策树原理决策树代码(Spark Python) 决策树原理详见博文:http://www.cnblogs.com/itmorn/p/7918797.html 返回目录决策树代码(Spar ...
【Spark机器学习速成宝典】模型篇04朴素贝叶斯【Naive Bayes】（Python版）
目录朴素贝叶斯原理朴素贝叶斯代码(Spark Python) 朴素贝叶斯原理详见博文:http://www.cnblogs.com/itmorn/p/7905975.html 返回目录朴素贝叶 ...
【Spark机器学习速成宝典】模型篇03线性回归【LR】（Python版）
目录线性回归原理线性回归代码(Spark Python) 线性回归原理详见博文:http://www.cnblogs.com/itmorn/p/7873083.html 返回目录线性回归代码( ...

随机推荐

springboot(十九)-线程池的使用
我们常用ThreadPoolExecutor提供的线程池服务,springboot框架提供了@Async注解,帮助我们更方便的将业务逻辑提交到线程池中异步执行. 话不多说,编码开始: 1.创建spri ...
小P的架构生活(下)
小L强烈建议团队使用微服务,并极力推荐了前公司用的一套分布式事务解决方案. 小P经过反复思考查证并做了大量的尝试后,辨证地对微服务架构做了如下分析: 为什么要用微服务,微服务带来了哪些好处? 1.减少 ...
【转载】java工程师学习之路---给自己的目标
想学习或者提升java的可以看看,单从java角度来看总结的虽然还是很全面的,主要是为了自己看 http://blog.csdn.net/peace1213/article/details/50849 ...
什么是RTTI
参考: http://www.cnblogs.com/vamei/archive/2013/04/14/3013985.html 运行时类型识别(RTTI, Run-Time Type Identi ...
IIS7发布asp.net mvc提示404
之前服务器用的都是2003Server的服务器,发布mvc项目都没问题,今天换了一台机器,系统为Windows Server2008 R2 64位的发布mvc项目后就提示: 百度看到好多人说在web ...
Clob类型转换为String
SQL CLOB 是内置类型,它将字符大对象存储为数据库表某一行中的一个列值,使用CHAR来存储数据,如XML文档. 如下是一个Clob转换为String的静态方法,可将其放在自己常用的工具类中,想直 ...
Delphi 集合类型
Delphi BitBtn组件
会了docker你又多了一个谈资（下）
上篇文章介绍了docker 基本使用及安装([跳转☞会了docker你又多了一个谈资(上)],这篇重点说明下docker使用技巧. 问题1怎么用docker搭建多台服务器? 只需要 docker ru ...
SQL Server里面如何导出包含数据的SQL脚本
通常情况下,SQL Server里面的生成SQL脚本,只会包含数据库及表的字段结构,而不会包含表的数据,也就是SQL脚本里面只有Create database,Create table 这样的语句,没 ...

【Spark机器学习速成宝典】模型篇08保序回归【Isotonic Regression】（Python版）

目录

保序回归原理

保序回归代码(Spark Python)

【Spark机器学习速成宝典】模型篇08保序回归【Isotonic Regression】（Python版）的更多相关文章

随机推荐

热门专题