7. 基于MLlib的机器学习

*以下内容由《Spark快速大数据分析》整理所得。

读书笔记的第七部分是讲的是如何使用Spark中提供机器学习函数的MLlib库，在集群中并行运行机器学习算法。

MLlib是Spark中提供机器学习函数的，MLlib就是RDD上一系列可供调用的函数的集合。需要注意的是：MLlib 中只包含能够在集群上运行良好的并行算法，不支持不能并行执行的算法。

一、操作向量

二、特征提取

三、特征标准化

四、分类

五、回归

六、聚类

七、降维

一、操作向量

MLlib 中有个最常用的数据类型Vector类：稠密向量与稀疏向量。

例子：用 Python 创建向量

from numpy import array

from pyspark.mllib.linalg import Vectors 

# 创建稠密向量<1.0, 2.0, 3.0>

# 方法1：NumPy数组可以直接传给MLlib

denseVec1 = array([1.0, 2.0, 3.0])

# 方法2：或者使用Vectors类来创建

denseVec2 = Vectors.dense([1.0, 2.0, 3.0]) 

# 创建稀疏向量<1.0, 0.0, 2.0, 0.0>；该方法只接收

# 向量的维度（4）以及非零位的位置和对应的值

# 这些数据可以用一个dictionary来传递，或使用两个分别代表位置和值的list

sparseVec1 = Vectors.sparse(4, {0: 1.0, 2: 2.0})

sparseVec2 = Vectors.sparse(4, [0, 2], [1.0, 2.0])

二、特征提取

MLlib 有两个算法可以用来计算 TF-IDF：HashingTF和IDF，都在 mllib.feature 包内。 HashingTF从一个文档中计算出给定大小的词频向量。
例子：在 Python 中使用 TF-IDF

from pyspark.mllib.feature import HashingTF, IDF 

# 将若干文本文件读取为TF向量

rdd = sc.wholeTextFiles("data").map(lambda (name, text): text.split())

tf = HashingTF()

tfVectors = tf.transform(rdd).cache() 

# 计算IDF，然后计算TF-IDF向量 idf = IDF()

idfModel = idf.fit(tfVectors)

tfIdfVectors = idfModel.transform(tfVectors)

还有其它方法： Word2Vec.fit_transform(rdd)

三、特征标准化

使用MLlib中的StandardScaler类来进行这样的缩放，同时控制均值和标准差（例如所有的特征平均值为0，标准差为1）。
例子：在Python中缩放向量

from pyspark.mllib.feature import StandardScaler 

vectors = [Vectors.dense([-2.0, 5.0, 1.0]), Vectors.dense([2.0, 0.0, 1.0])]

dataset = sc.parallelize(vectors)

scaler = StandardScaler(withMean=True, withStd=True)

model = scaler.fit(dataset)

result = model.transform(dataset)

四、分类

例子：Python 版垃圾邮件分类器

from pyspark.mllib.regression import LabeledPoint # 方便准备带标签的数据点

from pyspark.mllib.feature import HashingTF # 词频特征的提取

from pyspark.mllib.classification import LogisticRegressionWithSGD # SGD 

spam = sc.textFile("spam.txt") normal = sc.textFile("normal.txt") 

# 创建一个HashingTF实例来把邮件文本映射为包含10000个特征的向量

tf = HashingTF(numFeatures = 10000)

# 各邮件都被切分为单词，每个单词被映射为一个特征

spamFeatures = spam.map(lambda email: tf.transform(email.split(" ")))

normalFeatures = normal.map(lambda email: tf.transform(email.split(" "))) 

# 创建LabeledPoint数据集分别存放阳性（垃圾邮件）和阴性（正常邮件）的例子

positiveExamples = spamFeatures.map(lambda features: LabeledPoint(1, features))

negativeExamples = normalFeatures.map(lambda features: LabeledPoint(0, features))

trainingData = positiveExamples.union(negativeExamples) trainingData.cache() # 因为逻辑回归是迭代算法，所以缓存训练数据RDD 

# 使用SGD算法运行逻辑回归

model = LogisticRegressionWithSGD.train(trainingData) 

# 以阳性（垃圾邮件）和阴性（正常邮件）的例子分别进行测试。首先使用

# 一样的HashingTF特征来得到特征向量，然后对该向量应用得到的模型

posTest = tf.transform("O M G GET cheap stuff by sending money to ...".split(" "))

negTest = tf.transform("Hi Dad, I started studying Spark the other ...".split(" "))

print "Prediction for positive test example: %g" % model.predict(posTest)

print "Prediction for negative test example: %g" % model.predict(negTest)

五、回归

例子：Python 中的线性回归

from pyspark.mllib.regression import LabeledPoint

from pyspark.mllib.regression import LinearRegressionWithSGD 

points = # (创建LabeledPoint组成的RDD)

model = LinearRegressionWithSGD.train(points, iterations=200, intercept=True)

print "weights: %s, intercept: %s" % (model.weights, model.intercept)

六、聚类

当你要调用K-means算法时，你需要创建 mllib.clustering.KMeans 对象（在Java/Scala中）或者调用 KMeans.train （在Python中）。它接收一个Vector组成的RDD作为参数。K-means返回一个KMeansModel对象，该对象允许你访问其clusterCenters属性（聚类中心，是一个向量的数组）或者调用 predict() 来对一个新的向量返回它所属的聚类。

七、降维

PCA目前只在Java 和Scala（MLlib 1.2）中可用。要调用PCA，你首先要使用mllib. linalg.distributed.RowMatrix类来表示你的矩阵，然后存储一个由Vector 组成的RDD每行一个。
例子：Scala 中的 PCA

import org.apache.spark.mllib.linalg.Matrix

import org.apache.spark.mllib.linalg.distributed.RowMatrix

val points: RDD[Vector] = // ...

val mat: RowMatrix = new RowMatrix(points)

val pc: Matrix = mat.computePrincipalComponents(2)

// 将点投影到低维空间中

val projected = mat.multiply(pc).rows

// 在投影出的二维数据上训练k-means模型

val model = KMeans.train(projected, 10)

7. 基于MLlib的机器学习的更多相关文章

Spark学习之基于MLlib的机器学习
Spark学习之基于MLlib的机器学习 1. 机器学习算法尝试根据训练数据(training data)使得表示算法行为的数学目标最大化,并以此来进行预测或作出决定. 2. MLlib完成文本分类任 ...
Spark学习笔记——基于MLlib的机器学习
使用MLlib库中的机器学习算法对垃圾邮件进行分类分类的垃圾邮件的如图中分成4个文件夹,两个文件夹是训练集合,两个文件夹是测试集合 build.sbt文件 name := "spark-f ...
基于Python的机器学习实战：KNN
1.KNN原理: 存在一个样本数据集合,也称作训练样本集,并且样本集中每个数据都存在标签,即我们知道样本集中每一个数据与所属分类的对应关系.输入没有标签的新数据后,将新数据的每个特征与样本集中数据对应 ...
基于Apache Spark机器学习的客户流失预测
流失预测是个重要的业务,通过预测哪些客户可能取消对服务的订阅来最大限度地减少客户流失.虽然最初在电信行业使用,但它已经成为银行,互联网服务提供商,保险公司和其他垂直行业的通用业务. 预测过程是大规模数 ...
基于python的机器学习开发环境安装（最简单的初步开发环境）
一.安装Python 1.下载安装python3.6 https://www.python.org/getit/ 2.配置环境变量(2个) 略...... 二.安装Python算法库安装顺序:Num ...
基于C#的机器学习--贝叶斯定理-执行数据分析解决肇事逃逸之谜
贝叶斯定理-执行数据分析解决肇事逃逸之谜在这一章中,我们将: 应用著名的贝叶斯定理来解决计算机科学中的一个非常著名的问题. 向您展示如何使用贝叶斯定理和朴素贝叶斯来绘制数据,从真值表中发现异常值 ...
基于C#的机器学习--面部和动态检测-图像过滤器
在本章中,我们将展示两个独立的例子,一个用于人脸检测,另一个用于动态检测,以及如何快速地将这些功能添加到应用程序中. 在这一章中,我们将讨论: 面部检测动态检测将检测添加到应用程序中面部检测人 ...
基于C#的机器学习--我应该接受这份工作吗-使用决策树
决策树要使决策树完整而有效,它必须包含所有的可能性.事件序列也必须提供,并且是互斥的,这意味着如果一个事件发生,另一个就不能发生. 决策树是监督机器学习的一种形式,因为我们必须解释输入和输出应该是什 ...
基于C#的机器学习--深层信念网络
我们都听说过深度学习,但是有多少人知道深度信念网络是什么?让我们从本章开始回答这个问题.深度信念网络是一种非常先进的机器学习形式,其意义正在迅速演变.作为一名机器学习开发人员,对这个概念有一定的了解是 ...

随机推荐

在SpringBoot项目中怎样引入.yml文件中的设置
SpringBoot中获取application.yml文件内容原始方式pro.load()与 pro.getProperty()配合的方式 @Value注解方式 @ConfigurationPro ...
HTML，Dreamweaver中的大小写
一般都不讲究,结果昨天在做框架网页的时候,这个target目标窗口却讲究起来大小写,开始没注意,mainframe和mainFrame居然不一样,涨姿势了! 2020.10.14
【转】Linux-CentOS7设置程序开启自启步骤！
链接:https://blog.csdn.net/wang123459/article/details/79063703
logstash -grok插件语法介绍
介绍 logstash拥有丰富的filter插件,它们扩展了进入过滤器的原始数据,进行复杂的逻辑处理,甚至可以无中生有的添加新的 logstash 事件到后续的流程中去!Grok 是 Logsta ...
lumen单元测试
phpunit --filter testInfo tests/UserTest.php UserTest.php <?php use Laravel\Lumen\Testing\Databa ...
flask生产环境部署
1.安装uwsgipip install uwsgi 2.创建ini配置文件vim uwsgi.ini内容如下:[uwsgi]# 配置启动的服务地址和iphttp=0.0.0.0:5001# 项目目录 ...
《Kafka笔记》2、环境搭建、Topic管理
目录一.Kafka环境搭建和Topic管理 1 单机环境搭建 1.1 环境准备 1.1.1 JDK 安装 1.1.2 配置主机名和ip 1.1.3 关闭防火墙和防火墙开机自启动 1.1.4 zook ...
Java 8 中的抽象类和接口到底有啥区别？
上一篇栈长发了这篇<Java 8 有多牛逼?打破一切你对接口的认知!>,帮助许多人解开了疑惑,还有读者留言说两者还有啥区别,故引发了此篇: 在我们面试时也会经常遇到面试官问抽象类和接口的区 ...
C# 微支付退款申请接口 V3.3.6
/// <summary>/// 微支付退款申请/// </summary>/// <param name="context"></par ...
linux文本三剑客之grep
grep(global search regular expression(RE) and print out the line,全面搜索正则表达式并把行打印出来)是一种强大的文本搜索工具,它能使用正 ...

7. 基于MLlib的机器学习

7. 基于MLlib的机器学习的更多相关文章

随机推荐

热门专题