我的spark python 决策树实例

from numpy import array

from pyspark.mllib.regression import LabeledPoint

from pyspark.mllib.tree import DecisionTree, DecisionTreeModel

from pyspark import SparkContext

from pyspark.mllib.evaluation import BinaryClassificationMetrics

sc = SparkContext(appName="PythonDecisionTreeClassificationExample")

data = [

     LabeledPoint(0.0, [0.0]),

     LabeledPoint(1.0, [1.0]),

     LabeledPoint(0.0, [-2.0]),

     LabeledPoint(0.0, [-1.0]),

     LabeledPoint(0.0, [-3.0]),

     LabeledPoint(1.0, [4.0]),

     LabeledPoint(1.0, [4.5]),

     LabeledPoint(1.0, [4.9]),

     LabeledPoint(1.0, [3.0])

 ]

all_data = sc.parallelize(data)

(trainingData, testData) = all_data.randomSplit([0.8, 0.2])

# model = DecisionTree.trainClassifier(sc.parallelize(data), 2, {})

model = DecisionTree.trainClassifier(trainingData, numClasses=2, categoricalFeaturesInfo={},

                                         impurity='gini', maxDepth=5, maxBins=32)

print(model)

print(model.toDebugString())

model.predict(array([1.0]))

model.predict(array([0.0]))

rdd = sc.parallelize([[1.0], [0.0]])

model.predict(rdd).collect()

predictions = model.predict(testData.map(lambda x: x.features))

labelsAndPredictions = testData.map(lambda lp: lp.label).zip(predictions)

predictionsAndLabels = predictions.zip(testData.map(lambda lp: lp.label))

metrics = BinaryClassificationMetrics(predictionsAndLabels )

print "AUC=%f PR=%f" % (metrics.areaUnderROC, metrics.areaUnderPR)

testErr = labelsAndPredictions.filter(lambda (v, p): v != p).count() / float(testData.count())

print('Test Error = ' + str(testErr))

print('Learned classification tree model:')

print(model.toDebugString())

# Save and load model

model.save(sc, "./myDecisionTreeClassificationModel")

sameModel = DecisionTreeModel.load(sc, "./myDecisionTreeClassificationModel")

我的spark python 决策树实例的更多相关文章

梯度迭代树（GBDT）算法原理及Spark MLlib调用实例（Scala/Java/python）
梯度迭代树(GBDT)算法原理及Spark MLlib调用实例(Scala/Java/python) http://blog.csdn.net/liulingyuan6/article/details ...
【原】Learning Spark (Python版) 学习笔记(三)----工作原理、调优与Spark SQL
周末的任务是更新Learning Spark系列第三篇,以为自己写不完了,但为了改正拖延症,还是得完成给自己定的任务啊 = =.这三章主要讲Spark的运行过程(本地+集群),性能调优以及Spark ...
python基础——实例属性和类属性
python基础——实例属性和类属性由于Python是动态语言,根据类创建的实例可以任意绑定属性. 给实例绑定属性的方法是通过实例变量,或者通过self变量: class Student(objec ...
python 发送邮件实例
留言板回复作者邮件提醒 -----------2016-5-11 15:03:58-- source:python发送邮件实例
python Cmd实例之网络爬虫应用
python Cmd实例之网络爬虫应用标签(空格分隔): python Cmd 爬虫废话少说,直接上代码 # encoding=utf-8 import os import multiproces ...
Pandas基础学习与Spark Python初探
摘要:pandas是一个强大的Python数据分析工具包,pandas的两个主要数据结构Series(一维)和DataFrame(二维)处理了金融,统计,社会中的绝大多数典型用例科学,以及许多工程领域 ...
Python爬虫实例：爬取B站《工作细胞》短评——异步加载信息的爬取
很多网页的信息都是通过异步加载的,本文就举例讨论下此类网页的抓取. <工作细胞>最近比较火,bilibili 上目前的短评已经有17000多条. 先看分析下页面右边 li 标签中的就是短 ...
Python爬虫实例：爬取猫眼电影——破解字体反爬
字体反爬字体反爬也就是自定义字体反爬,通过调用自定义的字体文件来渲染网页中的文字,而网页中的文字不再是文字,而是相应的字体编码,通过复制或者简单的采集是无法采集到编码后的文字内容的. 现在貌似不少网 ...
Python爬虫实例：爬取豆瓣Top250
入门第一个爬虫一般都是爬这个,实在是太简单.用了 requests 和 bs4 库. 1.检查网页元素,提取所需要的信息并保存.这个用 bs4 就可以,前面的文章中已经有详细的用法阐述. 2.找到下一 ...

随机推荐

MessageDigest 加密和解密2
package com.drawthink.platform.util; import java.security.MessageDigest; import java.security.NoSuch ...
域名转让（bcd.cn,tjcpda.com,jscpda.com,fjcpda.com）
因本人工作有所调整,现对所拥有的域名全部转让,有需要者请与我联系,谢谢. bcd.cn tjcpda.com jscpda.com fjcpda.com 联系方式: QQ:1181608198 Ema ...
【Oracle】设置快速恢复区及reset快速恢复区
快速恢复区概念是一个默认放置所有备份恢复操作有关文件的地方,包括:控制文件在线镜像.在线重做日志.归档日志.外来归档日志.控制文件镜像复制.数据文件镜像复制.RMAN备份片和闪回日志. 如果启用的 ...
2星|《腾讯产品法》：标题党，作者只有QQ手机助手的短期产品经验
腾讯产品法(一本书读懂腾讯产品思维与运营方法,<腾讯传>作者吴晓波推荐) 全书是作者的一些产品设计与运营的经验.如果书名不误导读者,这本书的内容值3星. 基于书名的误导,读后比较失望,作者 ...
三维重建面试4：Jacobian矩阵和Hessian矩阵
在使用BA平差之前,对每一个观测方程,得到一个代价函数.对多个路标,会产生一个多个代价函数的和的形式,对这个和进行最小二乘法进行求解,使用优化方法.相当于同时对相机位姿和路标进行调整,这就是所谓的BA ...
C#抽奖算法
摘自网络 static void Main(string[] args) { //各物品的概率保存在数组里 ]{ 0.5f, 0.5f, , }; //单次测试 //Console.WriteLine ...
编程领域中的 "transparent" 和 "opaque"
引言在学习计算机的过程中,经常会接触到 “透明” 和 “非透明” 的概念. 刚开始理解 “透明” 这个概念的时候,认为 “透明” 就是程序员可以看见其中的构造,但是老师却说透明是程序员意识不到其中的 ...
查看占用某端口的进程——netstat、findstr 的使用
netstat 检验本机各端口的网络连接情况 -a 显示所有连接和侦听端口(如Windows共享服务的135,445端口) -n 不进行IP地址到主机名的解析 -o 显示拥有的与每个连接关联的进 ...
idea+MAVEN项目
一.首先创建一个maven项目 1.依次点击:File->New->Project 2.左侧面板选择maven(不要选择Create from archetype选项),如下图,点击Nex ...
LeetCode SQL题目（第一弹）
LeetCode SQL题目注意:Leetcode上的SQL编程题都提供了数据表的架构程序,只需要将它贴入本地数据库即可调试自己编写的程序不管是MS-SQL Server还是MySQL都需要登陆才 ...

我的spark python 决策树实例

我的spark python 决策树实例的更多相关文章

随机推荐

热门专题