Spark2.0 特征提取、转换、选择之二：特征选择、文本处理，以中文自然语言处理(情感分类)为例

【Spark2.0 特征提取、转换、选择之二：特征选择、文本处理，以中文自然语言处理(情感分类)为例】的更多相关文章

Spark2.0 特征提取、转换、选择之二：特征选择、文本处理，以中文自然语言处理(情感分类)为例

特征选择 RFormula RFormula是一个很方便,也很强大的Feature选择(自由组合的)工具. 输入string 进行独热编码(见下面例子country) 输入数值型转换为double(见下面例子hour) label为string,也用StringIndexer进行编号 RFormula produces a vector column of features and a double or string column of label. Like when formulas ar…

Spark2.0 特征提取、转换、选择之一：数据规范化，String-Index、离散-连续特征相互转换

数据规范化(标准化) 在数据预处理时,这两个术语可以互换使用.(不考虑标准化在统计学中有特定的含义). 下面所有的规范化操作都是针对一个特征向量(dataFrame中的一个colum)来操作的. 首先举一个例子: //MaxAbsScaler例子(参考后面MaxAbsScaler部分) //例子:对特征0,特征1,特征2,分别进行缩放,使得值为[-1,1] //例如特征0,其特征向量为[1000,100,-10] absMax=1000,因此缩放为[1.0,0.1,-0.01] +-----+-…

Spark2.0机器学习系列之1：聚类算法(LDA）

在Spark2.0版本中(不是基于RDD API的MLlib),共有四种聚类方法: (1)K-means (2)Latent Dirichlet allocation (LDA) (3)Bisecting k-means(二分k均值算法) (4)Gaussian Mixture Model (GMM) 基于RDD API的MLLib中,共有六种聚类方法: (1)K-means (2)Gaussian mixture …

Spark2.0机器学习系列之3：决策树

概述分类决策树模型是一种描述对实例进行分类的树形结构. 决策树可以看为一个if-then规则集合,具有“互斥完备”性质 .决策树基本上都是采用的是贪心(即非回溯)的算法,自顶向下递归分治构造. 生成决策树一般包含三个步骤: 特征选择决策树生成剪枝决策树算法种类决策树主要有 ID3, C4.5, C5.0 and CART几种, ID3, C4.5, 和CART实际都采用的是贪心(即非回溯)的算法,自顶向下递归分治构造.对于每一个决策要求分成的组之间的“差异”最大.各种决策树算法之间…

geotrellis使用（二十五）将Geotrellis移植到spark2.0

目录前言升级spark到2.0 将geotrellis最新版部署到spark2.0(CDH) 总结一.前言事情总是变化这么快,前面刚写了一篇博客介绍如何将geotrellis移植导CDH中(见geotrellis使用(二十四)将Geotrellis移植到CDH中必须要填的若干个坑),刚各种折腾几天,就又跑不起来了,查找一番,发现是由于将geotrellis升级到最新版造成的,所以不得不赶紧再救火.原来是最新版以及以后的版本geotrellis都不再支持spark2.0以下版…

Spark2.0机器学习系列之2：基于Pipeline、交叉验证、ParamMap的模型选择和超参数调优

Spark中的CrossValidation Spark中采用是k折交叉验证 (k-fold cross validation).举个例子,例如10折交叉验证(10-fold cross validation),将数据集分成10份,轮流将其中9份做训练1份做验证,10次的结果的均值作为对算法精度的估计. 10折交叉检验最常见,是因为通过利用大量数据集.使用不同学习技术进行的大量试验,表明10折是获得最好误差估计的恰当选择,而且也有一些理论根据可以证明这一点.但这并非最终结论,争议仍然存在.而且似…

Spark2.0机器学习系列之5：随机森林

概述随机森林是决策树的组合算法,基础是决策树,关于决策树和Spark2.0中的代码设计可以参考本人另外一篇博客: http://www.cnblogs.com/itboys/p/8312894.html随机森林Spark中基于Pipeline和DataFrame的代码编写和决策树基本上是一样的,只需要将classifer换一下可以了,其它部分是一模一样的,因此本文不再对代码进行注释分析. 随机森林模型可以快速地被应用到几乎任何的数据科学问题中去,从而使人们能够高效快捷地获得第一组基准测试结果.…

图文解析Spark2.0核心技术(转载)

导语 Spark2.0于2016-07-27正式发布,伴随着更简单.更快速.更智慧的新特性,spark 已经逐步替代 hadoop 在大数据中的地位,成为大数据处理的主流标准.本文主要以代码和绘图的方式结合,对运行架构.RDD 的实现.spark 作业原理.Sort-Based Shuffle 的存储原理. Standalone 模式 HA 机制进行解析. 1.运行架构 Spark支持多种运行模式.单机部署下,既可以用本地(Local)模式运行,也可以使用伪分布式模式来运行:当以分布式集群部署的…

Spark2.0机器学习系列之12：线性回归及L1、L2正则化区别与稀疏解

概述线性回归拟合一个因变量与一个自变量之间的线性关系y=f(x). Spark中实现了: (1)普通最小二乘法 (2)岭回归(L2正规化) (3)Lasso(L1正规化). (4)局部加权线性回归 (5)流式数据可以适用于线上的回归模型,每当有新数据达到时,更新模型的参数,MLlib目前使用普通的最小二乘支持流线性回归.除了每批数据到达时,模型更新最新的数据外,实际上与线下的执行是类似的. 本文采用的符号: 拟合函数 …

Spark2.0机器学习系列之9：聚类(k-means,Bisecting k-means,Streaming k-means）

在Spark2.0版本中(不是基于RDD API的MLlib),共有四种聚类方法: (1)K-means (2)Latent Dirichlet allocation (LDA) (3)Bisecting k-means(二分k均值算法) (4)Gaussian Mixture Model (GMM). 基于RDD API的MLLib中,共有六种聚类方法: (1)K-means (2)Gaussian mixture …