Spark学习之基于MLlib的机器学习

1. 机器学习算法尝试根据训练数据（training data）使得表示算法行为的数学目标最大化，并以此来进行预测或作出决定。

2. MLlib完成文本分类任务步骤：

(1)首先用字符串RDD来表示你的消息

(2)运行MLlib中的一个特征提取（feature extraction）算法来把文本数据转换为数值特征（适合机器学习算法处理）；该操作会返回一个向量RDD。

(3)对向量RDD调用分类算法(比如逻辑回归)；这步会返回一个模型对象，可以使用该对象对新的数据点进行分类。

(4)使用MLlib的评估函数在测试数据集上评估模型。

3. MLlib包含的主要数据类型：

Vector
LabeledPoint
Rating
各种Model类

4. 操作向量

向量有两种：稠密向量和稀疏向量
- 稠密向量：把所有维度的值存放在一个浮点数数组中
- 稀疏向量：只把各维度的非零值存储下来
- 优先考虑稀疏向量，也是关键的优化手段
创建向量的方式在各语言上有一些细微差别

5. 算法

特征提取
- TF-IDF(词频——逆文档频率)使用用来从文本文档（例如网页）中生成特向量的简单方法。
- MLlib用两个算法来计算TF-IDF:Hashing和IDF，都在mllib.feature包内。
- 缩放，大多数要考虑特征向量中各元素的幅值，并且在特征缩放调整为平等对待时表现最好。
- 正规化，在准备输入数据时，把向量正规化为长度1。使用Normalizer类可以实现。
- Word2Vec是一个基于神经网络的文本特征算法，可以用来将数据传给许多下游算法。
统计
分类和归类
- 分类与回归是监督学习的两种形式。
- 监督学习是指算法尝试使用有标签的训练数据根据对象的特征预测结果。
- 在分类中，预测出的变量是离散的。
- 在回归中，预测出的变量是连续的。
- MLlib中包含许多分类与回归算法：如简单的线性算法以及决策树和森林算法。
聚类
- 聚类算法是一种无监督学习任务，用于将对象分到具有高度相似性的聚类中。
- 聚类算法主要用于数据探索（查看一个新数据集是什么样子）以及异常检测（识别与任意聚类都相聚较远的点）。
- MLlib中包含两个聚类中流行的K-means算法，以及一个叫做K-means||的变种，可以提供为并行环境提供更好的初始化策略。
协同过滤与推荐
- 协同过滤是一种根据用户对各种产品的交互与评分来推荐新产品的推荐系统技术。
- 交替最小二乘（ALS），会为每个用户和产品都设一个特征向量，这样用户向量和产品向量的点积就接近于他们的得分。
降维
- 主成分分析（PCA）
  - PCA会把特征映射到低位空间，让数据在低维空间表示的方差最大化，从而忽略一些无用的维度。
  - 要计算这种映射，我们要构建出正规化的相关矩阵，并使用这个矩阵的奇异向量和奇异值。
  - 与最大的一部分奇异值相对应的奇异向量可以用来重建原始数据的主要成分。

//Scala中的PCA

import org.apache.spark.mllib.linalg.Matrix

import org.apache.spark.mllib.linalg.distributed.RowMatrix

val points:RDD[Vector]=//...

val mat:RowMatrix = new RowMatrix(points)

val pc:Matrix = mat.computerPrincipalComponents(2)

//将点投影到低维空间中

val projected = mat.nultiply(pc).rows

//在投影出的二维数据上训练k-means模型

val model = KMeans.train(projected,10)

降维
- 奇异值分解
  - MLlib也提供底层的奇异值分解（简称SVD）原语。

Spark学习之基于MLlib的机器学习的更多相关文章

Spark学习笔记——基于MLlib的机器学习
使用MLlib库中的机器学习算法对垃圾邮件进行分类分类的垃圾邮件的如图中分成4个文件夹,两个文件夹是训练集合,两个文件夹是测试集合 build.sbt文件 name := "spark-f ...
7. 基于MLlib的机器学习
*以下内容由<Spark快速大数据分析>整理所得. 读书笔记的第七部分是讲的是如何使用Spark中提供机器学习函数的MLlib库,在集群中并行运行机器学习算法. MLlib是Spark中提 ...
【转载】Spark学习 & 机器学习
然后看的是机器学习这一块,因为偏理论,可以先看完.其他的实践,再看. http://www.cnblogs.com/shishanyuan/p/4747761.html “机器学习是用数据或以往的经验 ...
spark学习笔记总结-spark入门资料精化
Spark学习笔记 Spark简介 spark 可以很容易和yarn结合,直接调用HDFS.Hbase上面的数据,和hadoop结合.配置很容易. spark发展迅猛,框架比hadoop更加灵活实用. ...
Spark学习笔记总结-超级经典总结
Spark简介 spark 可以很容易和yarn结合,直接调用HDFS.Hbase上面的数据,和hadoop结合.配置很容易. spark发展迅猛,框架比hadoop更加灵活实用.减少了延时处理,提高 ...
【转载】Spark学习——入门
要学习分布式以及数据分析.机器学习之类的,觉得可以通过一些实际的编码项目入手.最近Spark很火,也有不少招聘需要Spark,而且与传统的Hadoop相比,Spark貌似有一些优势.所以就以Spark ...
spark学习及环境配置
http://dblab.xmu.edu.cn/blog/spark/ 厦大数据库实验室博客总结.分享.收获实验室主页首页大数据数据库数据挖掘其他子雨大数据之Spark入门教程林子 ...
Spark学习一:Spark概述
1.1 什么是Spark Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎. 一站式管理大数据的所有场景(批处理,流处理,sql) spark不涉及到数据的存储,只 ...
spark学习笔记总结
Spark简介 spark 可以很容易和yarn结合,直接调用HDFS.Hbase上面的数据,和hadoop结合.配置很容易. spark发展迅猛,框架比hadoop更加灵活实用.减少了延时处理,提高 ...

随机推荐

Spring中注解
@Autowired :spring注解 @Resource :J2EE注解 @Transactional(rollbackFor=Exception.class):指定回滚 @RequestMapp ...
mac下Android Studio干净卸载
1.卸载Android Studio,在终端(terminal)执行以下命令: rm -Rf /Applications/Android\ Studio.app rm -Rf ~/Library/Pr ...
lucene segment会包含所有的索引文件，如tim tip等，可以认为是mini的独立索引
A Lucene index segment can be viewed as a "mini" index or a shard. Each segment is a colle ...
Linux下安装Openfire 4.2.1
1.下载安装包,下载地址:http://www.igniterealtime.org/downloads/index.jsp#openfire 2.将下载的安装包复制到linux服务器的/opt目录下 ...
IDEA Terminal
如果IDEA在Terminal中无法使用环境变量,提示没有此命令的话,请查看在cmd中是否可以正常使用,然后,请右击IDEA以管理员方式进行运行,Terminal就可以正常使用了
Codeforces Round #325D (Div. 2) (DP）
题目链接: D. Phillip and Trains 分析:dp 我们先初始化,dp[i]表示当前列第i行是否可达,r[i]表示上一个dp值,接下来从头搜到尾如果该位置满足s[i+1]=='.'且 ...
bzoj 2257: [Jsoi2009]瓶子和燃料【裴蜀定理+gcd】
裴蜀定理:若a,b是整数,且gcd(a,b)=d,那么对于任意的整数x,y,ax+by都一定是d的倍数,特别地,一定存在整数x,y,使ax+by=d成立. 所以最后能得到的最小燃料书就是gcd,所以直 ...
bzoj 4555: [Tjoi2016&Heoi2016]求和【NTT】
暴力推式子推诚卷积形式,但是看好多blog说多项式求逆不知道是啥.. \[ \sum_{i=0}^{n}\sum_{j=0}^{n}S(i,j)*2^j*j! \] \[ S(i,j)=\frac{1 ...
mysql 状态查询
select COUNT(case when info.State = '0' then State end ) as daichuliCount, COUNT(case when info.St ...
C# 后台处理http请求
using System.Collections.Generic; using System.Linq; using System.Text; using System.Net; using Syst ...

Spark学习之基于MLlib的机器学习

Spark学习之基于MLlib的机器学习

1. 机器学习算法尝试根据训练数据（training data）使得表示算法行为的数学目标最大化，并以此来进行预测或作出决定。

2. MLlib完成文本分类任务步骤：

3. MLlib包含的主要数据类型：

4. 操作向量

5. 算法

Spark学习之基于MLlib的机器学习的更多相关文章

随机推荐

热门专题