# -*-coding=utf-8 -*-

from pyspark import SparkConf, SparkContext

sc = SparkContext('local')

from pyspark.mllib.classification import LogisticRegressionWithLBFGS, LogisticRegressionModel

from pyspark.mllib.regression import LabeledPoint

# Load and parse the data 加载和解析数据，将每一个数转化为浮点数。每一行第一个数作为标记，后面的作为特征

def parsePoint(line):

    values = [float(x) for x in line.split(' ')]

    return LabeledPoint(values[0], values[1:])

data = sc.textFile("data/mllib/sample_svm_data.txt")

print data.collect()[0] #1 0 2.52078447201548 0 0 0 2.004684436494304 2.00034729926846.....

parsedData = data.map(parsePoint)

print parsedData.collect()[0] #(1.0,[0.0,2.52078447202,0.0,0.0,0.0,2.00468....

# Build the model 建立模型

model = LogisticRegressionWithLBFGS.train(parsedData)

# Evaluating the model on training data 评估模型在训练集上的误差

labelsAndPreds = parsedData.map(lambda p: (p.label, model.predict(p.features)))

trainErr = labelsAndPreds.filter(lambda lp: lp[0] != lp[1]).count() / float(parsedData.count())

print("Training Error = " + str(trainErr)) #Training Error = 0.366459627329

# Save and load model 保存模型和加载模型

model.save(sc, "pythonLogisticRegressionWithLBFGSModel")

sameModel = LogisticRegressionModel.load(sc,"pythonLogisticRegressionWithLBFGSModel")

print sameModel.predict(parsedData.collect()[0].features) #

【Spark机器学习速成宝典】模型篇02逻辑斯谛回归【Logistic回归】（Python版）的更多相关文章

【Spark机器学习速成宝典】模型篇08保序回归【Isotonic Regression】（Python版）
目录保序回归原理保序回归代码(Spark Python) 保序回归原理待续... 返回目录保序回归代码(Spark Python) 代码里数据:https://pan.baidu.com/s/ ...
【Spark机器学习速成宝典】模型篇07梯度提升树【Gradient-Boosted Trees】（Python版）
目录梯度提升树原理梯度提升树代码(Spark Python) 梯度提升树原理待续... 返回目录梯度提升树代码(Spark Python) 代码里数据:https://pan.baidu.co ...
【Spark机器学习速成宝典】模型篇06随机森林【Random Forests】（Python版）
目录随机森林原理随机森林代码(Spark Python) 随机森林原理参考:http://www.cnblogs.com/itmorn/p/8269334.html 返回目录随机森林代码(Sp ...
【Spark机器学习速成宝典】模型篇05决策树【Decision Tree】（Python版）
目录决策树原理决策树代码(Spark Python) 决策树原理详见博文:http://www.cnblogs.com/itmorn/p/7918797.html 返回目录决策树代码(Spar ...
【Spark机器学习速成宝典】模型篇04朴素贝叶斯【Naive Bayes】（Python版）
目录朴素贝叶斯原理朴素贝叶斯代码(Spark Python) 朴素贝叶斯原理详见博文:http://www.cnblogs.com/itmorn/p/7905975.html 返回目录朴素贝叶 ...
【Spark机器学习速成宝典】模型篇03线性回归【LR】（Python版）
目录线性回归原理线性回归代码(Spark Python) 线性回归原理详见博文:http://www.cnblogs.com/itmorn/p/7873083.html 返回目录线性回归代码( ...
【Spark机器学习速成宝典】模型篇01支持向量机【SVM】（Python版）
目录支持向量机原理支持向量机代码(Spark Python) 支持向量机原理详见博文:http://www.cnblogs.com/itmorn/p/8011587.html 返回目录支持向量 ...
【Spark机器学习速成宝典】模型篇08支持向量机【SVM】（Python版）
目录什么是支持向量机(SVM) 线性可分数据集的分类线性可分数据集的分类(对偶形式) 线性近似可分数据集的分类线性近似可分数据集的分类(对偶形式) 非线性数据集的分类 SMO算法合页损失函数 ...
【Spark机器学习速成宝典】基础篇01Windows下spark开发环境搭建+sbt+idea（Scala版）
注意: spark用2.1.1 scala用2.11.11 材料准备 spark安装包 JDK 8 IDEA开发工具 scala 2.11.8 (注:spark2.1.0环境于scala2.11环境开 ...

随机推荐

docker toolbox的redis 配置主从及哨兵模式保证高可用
redis 的缓存中间件安装方法,简单举例如下: 环境: docker toolbox 一主从模式1 搜索redis镜像 docker search redis2 拉取镜像docker pul ...
Altium Designer16 如何分别导出TOP层和BOTTOM层
版权声明:本文为博主原创文章,遵循CC 4.0 BY-SA 版权协议,转载请附上原文出处链接及本声明. 作者:struct_mooc 博客地址:https://www.cnblogs.com/stru ...
浏览器行为：Form表单提交
1.form表单常用属性 1 2 3 4 action:url 地址,服务器接收表单数据的地址 method:提交服务器的http方法,一般为post和get name:最好好吃name属性的唯一性 ...
TensorFlow入门——安装
由于实验室新配了电脑,旧的电脑就淘汰下来不用,闲来无事,就讲旧的电脑作为个人的工作站来使用. 由于在旧电脑上安装的是Ubuntu 16.04 64bit系统,系统自带的是Python 2.7,版本选择 ...
C#中实现Hash应用
在C#中,数据的Hash以MD5或SHA1的方式实现,MD5与SHA1都是Hash算法,MD5输出是128位的,SHA1输出是160位的,MD5比SHA1快,SHA1比MD5强度高. 1.1 SHA- ...
Hyperledger Fabric（3）通道与组织
1,通道的结构通道是Fabric中非常重要的概念(类似微信群?),它实质是由排序节点划分和管理的私有原子广播通道,目的是对通道的信息进行隔离,使得通道外的实体无法访问通道内的信息,从而实现交易的隐私 ...
Hyperledger Fabric（2）共识与交易
Fabric 的网络节点本质上是互相复制的状态机,节点之间需要保持相同的账本状态.为了实现这个目的,各个节点需要通过共识( consensus )过程,对账本状态的变化达成一致性的认同. Fabric ...
13、Nginx七层负载均衡
1.Nginx负载均衡基本概述 1.1为什么需要使用负载均衡当我们的Web服务器直接面向用户,往往要承载大量并发请求,单台服务器难以负荷,我使用多台WEB服务器组成集群,前端使用Nginx负载均衡, ...
外星人电脑出现the system is running in low graphics mode的解决方法
问题现象: 执行删除GCC5.4.0: sudo apt-get remove gcc gcc-5重启电脑后,就显示the system is running in low graphics mod ...
HAproxy企业应用，TCP/HTTP动静分离
HAProxy的是一个免费的.开源的的tcp/http反向代理工具.负载均衡器,是一个企业非常快速和可靠的安全的解决方案,提供高可用性.高并发性,负载均衡和代理对TCP和基于HTTP的应用程序.它特别 ...

【Spark机器学习速成宝典】模型篇02逻辑斯谛回归【Logistic回归】（Python版）

目录

Logistic回归原理

Logistic回归代码(Spark Python)

【Spark机器学习速成宝典】模型篇02逻辑斯谛回归【Logistic回归】（Python版）的更多相关文章

随机推荐

热门专题