不多说，直接上干货！

　　特征选择里，常见的有：VectorSlicer(向量选择) RFormula(R模型公式) ChiSqSelector(卡方特征选择)。

　　VectorSlicer用于从原来的特征向量中切割一部分，形成新的特征向量，比如，原来的特征向量长度为10，我们希望切割其中的5~10作为新的特征向量，使用VectorSlicer可以快速实现。

　　理论，见

机器学习概念之特征选择（Feature selection）之VectorSlicer算法介绍

完整代码

VectorSlicer .scala

package zhouls.bigdata.DataFeatureSelection

import org.apache.spark.SparkConf

import org.apache.spark.SparkContext

import org.apache.spark.ml.attribute.{Attribute, AttributeGroup, NumericAttribute}

import org.apache.spark.ml.feature.VectorSlicer//引入ml里的特征选择的VectorSlicer

import org.apache.spark.mllib.linalg.Vectors

import org.apache.spark.sql.Row

import org.apache.spark.sql.types.StructType

/**

 * By  zhouls

 */

object VectorSlicer extends App {

    val conf = new SparkConf().setMaster("local").setAppName("VectorSlicer")

    val sc = new SparkContext(conf)

    val sqlContext = new org.apache.spark.sql.SQLContext(sc)

    import sqlContext.implicits._

    //构造特征数组

    val data = Array(Row(Vectors.dense(-2.0, 2.3, 0.0)))

    //为特征数组设置属性名（字段名），分别为f1 f2 f3

    val defaultAttr = NumericAttribute.defaultAttr

    val attrs = Array("f1", "f2", "f3").map(defaultAttr.withName)

    val attrGroup = new AttributeGroup("userFeatures", attrs.asInstanceOf[Array[Attribute]])

    //构造DataFrame

    val dataRDD = sc.parallelize(data)

    val dataset = sqlContext.createDataFrame(dataRDD, StructType(Array(attrGroup.toStructField())))

    print("原始特征：")

    dataset.take().foreach(println)

    //构造切割器

    var slicer = new VectorSlicer().setInputCol("userFeatures").setOutputCol("features")

    //根据索引号，截取原始特征向量的第1列和第3列

    slicer.setIndices(Array(,))

    print("output1: ")

    slicer.transform(dataset).select("userFeatures", "features").first()

    //根据字段名，截取原始特征向量的f2和f3

    slicer = new VectorSlicer().setInputCol("userFeatures").setOutputCol("features")

    slicer.setNames(Array("f2","f3"))

    print("output2: ")

    slicer.transform(dataset).select("userFeatures", "features").first()

    //索引号和字段名也可以组合使用，截取原始特征向量的第1列和f2

    slicer = new VectorSlicer().setInputCol("userFeatures").setOutputCol("features")

    slicer.setIndices(Array()).setNames(Array("f2"))

    print("output3: ")

    slicer.transform(dataset).select("userFeatures", "features").first()

}

输出结果是

　　python语言来编写

from pyspark.ml.feature import VectorSlicer

from pyspark.ml.linalg import Vectors

from pyspark.sql.types import Row  

df = spark.createDataFrame([

    Row(userFeatures=Vectors.sparse(, {: -2.0, : 2.3}),),

    Row(userFeatures=Vectors.dense([-2.0, 2.3, 0.0]),)])  

slicer = VectorSlicer(inputCol="userFeatures", outputCol="features", indices=[])  

output = slicer.transform(df)  

output.select("userFeatures", "features").show()

Spark MLlib编程API入门系列之特征选择之向量选择（VectorSlicer）的更多相关文章

Spark MLlib编程API入门系列之特征选择之卡方特征选择（ChiSqSelector）
不多说,直接上干货! 特征选择里,常见的有:VectorSlicer(向量选择) RFormula(R模型公式) ChiSqSelector(卡方特征选择). ChiSqSelector用于使用卡方检 ...
Spark MLlib编程API入门系列之特征选择之R模型公式（RFormula）
不多说,直接上干货! 特征选择里,常见的有:VectorSlicer(向量选择) RFormula(R模型公式) ChiSqSelector(卡方特征选择). RFormula用于将数据中的字段通过R ...
Spark MLlib编程API入门系列之特征提取之主成分分析(PCA)
不多说,直接上干货! 主成分分析(Principal Component Analysis,PCA), 将多个变量通过线性变换以选出较少个数重要变量的一种多元统计分析方法. 参考 http://blo ...
Spark SQL 编程API入门系列之SparkSQL的依赖
不多说,直接上干货! 不带Hive支持 <dependency> <groupId>org.apache.spark</groupId> <artifactI ...
Spark SQL 编程API入门系列之Spark SQL支持的API
不多说,直接上干货! Spark SQL支持的API SQL DataFrame(推荐方式,也能执行SQL) Dataset(还在发展) SQL SQL 支持basic SQL syntax/Hive ...
Spark SQL 编程API入门系列之SparkSQL数据源
不多说,直接上干货! SparkSQL数据源:从各种数据源创建DataFrame 因为 spark sql,dataframe,datasets 都是共用 spark sql 这个库的,三者共享同样的 ...
Spark SQL 编程API入门系列之Spark SQL的作用与使用方式
不多说,直接上干货! Spark程序中使用SparkSQL 轻松读取数据并使用SQL 查询,同时还能把这一过程和普通的Python/Java/Scala 程序代码结合在一起. CLI---Spark ...
Spark SQL 编程API入门系列之SparkSQL的入口
不多说,直接上干货! SparkSQL的入口:SQLContext SQLContext是SparkSQL的入口 val sc: SparkContext val sqlContext = new o ...
Hadoop MapReduce编程 API入门系列之压缩和计数器（三十）
不多说,直接上代码. Hadoop MapReduce编程 API入门系列之小文件合并(二十九) 生成的结果,作为输入源. 代码 package zhouls.bigdata.myMapReduce. ...

随机推荐

object equal
package equals; public class EqualsTest { public static void main(String[] args) { Employee alice1 = ...
min-width 和 @media screen
min-width可以容器设置最小宽度,低于改宽度时,会自动加上滚动条,支持ie7及ie7+: @media only screen and (min-width: /*最小宽度(要加单位px)*/) ...
JS/TS 的 import 和 export 用法小结
ES6 export 和 export default的区别昨天帮一个网友解决一个typescript的问题,看了一下,归根结底还是对js的import和export用法的不熟悉.让我想起来当年学这 ...
bzoj4664: Count
是bzoj4498: 魔法的碰撞的哥哥题,我只写了一种不一样的地方在于贡献有负数,第三维要保存的不能仅仅是0~L,这样空间会炸裂考虑如何把贡献变成正的假如要求最优解,那么一定是按顺序排,混乱度为 ...
HDU 2036：改革春风吹满地
改革春风吹满地 Time Limit: 2000/1000 MS (Java/Others) Memory Limit: 65536/32768 K (Java/Others) Total Su ...
ES6 数组的解构赋值
数组的解构赋值 ES6 允许按照一定模式,从数组和对象中提取值,对变量进行赋值,这被称为解构(Destructuring). 以前,为变量赋值,只能直接指定值. let a = 1; let b = ...
Oracle10G各版本下载以及补丁地址
Oracle Database 10g Release 2 (10.2.0.1.0) Enterprise/Standard Edition for Microsoft Windows (32-bit ...
Ntrip通讯协议1.0
Ntrip通讯协议1.0 1 什么是Ntrip? CORS(Continuously Operating Reference Stations)就是网络基准站,通过网络收发GPS差分数据.用户访问CO ...
PYTHON XPath与lxml类库
XPath,我们可以用先将HTML文档转换成XML文档,然后用XPath查找HTML节点或元素. XML文档实例 HTML DOM模型示例 HTML DOM定义了访问和操作HTML文档的标准方法,以树 ...
bzoj4555
ntt+cdq分治原来zwh出的cf是斯特林第二类斯特林数的定义是S(i,j)表示将i个物品分到j个无序集合的方案数,那么这道题中S(i,j)*j!*2^j是指将i个物品分到j个有序集合中并且每个 ...

Spark MLlib编程API入门系列之特征选择之向量选择（VectorSlicer）

机器学习概念之特征选择（Feature selection）之VectorSlicer算法介绍

Spark MLlib编程API入门系列之特征选择之向量选择（VectorSlicer）的更多相关文章

随机推荐

热门专题