spark 机器学习随机森林实现(二)

通过天气，温度，风速3个特征，建立随机森林，判断特征的优先级
结果天气温度风速
结果（0否,1是）
天气（0晴天，1阴天，2下雨）
温度（0热，1舒适，2冷）
风速（0没风，1微风，2大风）
1 1:0 2:1 3:0
结果去打球 1字段:晴天 2字段:温度舒适 3字段:风速没风
[hadoop@h201 pp]$ cat pp1.txt
1 1:0 2:1 3:0
0 1:2 2:2 3:2
1 1:0 2:0 3:0
1 1:0 2:0 3:1
1 1:0 2:1 3:1
1 1:0 2:1 3:1
1 1:0 2:1 3:0
0 1:1 2:2 3:2
0 1:1 2:2 3:2
0 1:2 2:2 3:2
0 1:2 2:1 3:1
0 1:2 2:1 3:2
0 1:1 2:2 3:2
1 1:0 2:1 3:0
本例子用官方提供代码进行更改完成
hadoop fs -put pp1.txt /

scala> import org.apache.spark.mllib.tree.RandomForest
scala> import org.apache.spark.mllib.tree.model.RandomForestModel
scala> import org.apache.spark.mllib.util.MLUtils

val data = MLUtils.loadLibSVMFile(sc, "hdfs://h201:9000/pp1.txt")
//标记点是将密集向量或者稀疏向量与应答标签相关联(结果)，在MLlib中，标记点用于监督学习算法。LIBSVM是林智仁教授等开发设计的一个简单、易用和快速有效的SVM模式识别与回归的软件包。MLlib已经提供了MLUtils.loadLibSVMFile方法读取存储在LIBSVM格式文本文件中的训练数据

//数据格式：空格分割，第一部分为结果，后面为特征向量

scala> val splits = data.randomSplit(Array(0.7, 0.3))
scala> val (trainingData, testData) = (splits(0), splits(1))

scala> val numClasses = 2
//分类数
scala> val categoricalFeaturesInfo = Map[Int, Int]()
// categoricalFeaturesInfo 为空，意味着所有的特征为连续型变量
scala> val numTrees = 3
//树的个数
scala> val featureSubsetStrategy = "auto"
//特征子集采样策略，auto 表示算法自主选取
scala> val impurity = "gini"

//以性别举例：性别：1-(1/2)^2-(1/2)^2 =0.5
scala> val maxDepth = 4
//树的最大层次
scala> val maxBins = 32
//特征最大装箱数

val model = RandomForest.trainClassifier(trainingData, numClasses, categoricalFeaturesInfo,
numTrees, featureSubsetStrategy, impurity, maxDepth, maxBins)
//训练随机森林分类器

val labelAndPreds = testData.map { point =>
val prediction = model.predict(point.features)
(point.label, prediction)
}
scala> val testErr = labelAndPreds.filter(r => r._1 != r._2).count.toDouble / testData.count()
scala> println("Test Error = " + testErr)
// 测试数据评价训练好的分类器并计算错误率

scala> println("Learned classification forest model:\n" + model.toDebugString)

scala> model.save(sc, "myModelPath")
//持久化保存随机森林

scala> val sameModel = RandomForestModel.load(sc, "myModelPath")
//加载随机森林

spark 机器学习随机森林实现(二)的更多相关文章

spark 机器学习随机森林原理(一)
1.什么是随机森林顾名思义,是用随机的方式建立一个森林,森林里面有很多的决策树组成,随机森林的每一棵决策树之间是没有关联的.在得到森林之后,当有一个新的输入样本进入的时候,就让森林中的每一棵决策树分 ...
使用基于Apache Spark的随机森林方法预测贷款风险
使用基于Apache Spark的随机森林方法预测贷款风险原文:Predicting Loan Credit Risk using Apache Spark Machine Learning R ...
机器学习实战基础（三十五）：随机森林（二）之 RandomForestClassiﬁer 之重要参数
RandomForestClassiﬁer class sklearn.ensemble.RandomForestClassifier (n_estimators=’10’, criterion=’g ...
Spark mllib 随机森林算法的简单应用（附代码）
此前用自己实现的随机森林算法,应用在titanic生还者预测的数据集上.事实上,有很多开源的算法包供我们使用.无论是本地的机器学习算法包sklearn 还是分布式的spark mllib,都是非常不错 ...
机器学习——随机森林，RandomForestClassifier参数含义详解
1.随机森林模型 clf = RandomForestClassifier(n_estimators=200, criterion='entropy', max_depth=4) rf_clf = c ...
spark 机器学习 knn 代码实现(二)
通过knn 算法规则,计算出s2表中的员工所属的类别原始数据:某公司工资表 s1(训练数据)格式:员工ID,员工类别,工作年限,月薪(K为单位) 101 a类 8年 ...
【Spark机器学习速成宝典】模型篇06随机森林【Random Forests】（Python版）
目录随机森林原理随机森林代码(Spark Python) 随机森林原理参考:http://www.cnblogs.com/itmorn/p/8269334.html 返回目录随机森林代码(Sp ...
Spark随机森林实现学习
前言最近阅读了spark mllib(版本:spark 1.3)中Random Forest的实现,发现在分布式的数据结构上实现迭代算法时,有些地方与单机环境不一样.单机上一些直观的操作(递归),在 ...
04-10 Bagging和随机森林
目录 Bagging算法和随机森林一.Bagging算法和随机森林学习目标二.Bagging算法原理回顾三.Bagging算法流程 3.1 输入 3.2 输出 3.3 流程四.随机森林详解 4 ...

随机推荐

rabbitmq - 消息接收，解析xml格式数据时异常：ERROR not well-formed (invalid token): line 4, column 46
ERROR alsv odoo.addons.cus_alsv.utils.alsv_about_mq.get_data_from_mq: parse_xml_data_from_mq: not we ...
（8）Flask微电影项目会员中心其他页面搭建
会员中心修改密码.评论.登录日志和收藏电影4个页面的内容. 一.修改密码页面: {% extends "home/home.html" %} {% block css %} < ...
Docker安装ES和Kibana
1.ES安装 1.下载ES镜像问题 docker pull elasticsearch 2.运行ES docker run -it --name elasticsearch -d -p 9200:92 ...
teamviewer破解版
简介 TeamViewer是一个能在任何防火墙和NAT代理的后台用于远程控制的应用程序,桌面共享和文件传输的简单且快速的解决方案.为了连接到另一台计算机,只需要在两台计算机上同时运行 TeamView ...
jenkins：新增节点是启动方式没有Launch agent by connecting it to the master
默认在这里的配置是禁用所以启动方式只有两种,缺少Launch agent by connecting it to the master
C# 编译器和反编译器，你要哪个（歪头）？我全都要（捏拳）！
前言从 C# 6.0 开始,C# 编译器就从以前由 C++ 实现的 csc.exe 换成了用 C# 重新实现的开放式 API 式编译服务 Roslyn.这个编译器到现在已经替代了老式编译器,从前 W ...
Python Tkinter 之Listbox控件
Listbox为列表框控件,它可以包含一个或多个文本项(text item),可以设置为单选或多选.使用方式为Listbox(root,option...). 常用的参数列表如下: 一些常用的函数:
【LeetCode】三数之和【排序，固定一个数，然后双指针寻找另外两个数】
给定一个包含 n 个整数的数组 nums,判断 nums 中是否存在三个元素 a,b,c ,使得 a + b + c = 0 ?找出所有满足条件且不重复的三元组. 注意:答案中不可以包含重复的三元组. ...
springcloud使用之服务的注册发现与消费
随着spring的发展我们发现spring提供了越来越多的项目来帮我们简化框架的搭建,使我们站在巨人的肩膀行走,让我们更关注于开发我们的逻辑.随着技术的更替,我们的新项目也逐渐使用了springboo ...
转载：MFC之MessageBox、AfxMessageBox用法
在软件中我们经常会弹出个小窗口,给一点点提示.这就会用到消息对话框. 在Win32 API程序中只有MessageBox这一种用法. 而在MFC中就有三各方法: .调用API中的MessageBox: ...

spark 机器学习 随机森林 实现(二)

spark 机器学习 随机森林 实现(二)的更多相关文章

随机推荐

热门专题

spark 机器学习随机森林实现(二)

spark 机器学习随机森林实现(二)的更多相关文章