Spark特征(提取，转换，选择)extracting, transforming and selecting features

VectorAssembler字段转换成特征向量

import org.apache.spark.ml.feature.VectorAssembler

val colArray = Array("age", "yearsmarried", "religiousness", "education", "occupation", "rating")

// 字段转换成特征向量

val assembler = new VectorAssembler().setInputCols(colArray).setOutputCol("features")

val vecDF: DataFrame = assembler.transform(data)

vecDF: org.apache.spark.sql.DataFrame = [affairs: double, gender: string ... 8 more fields]

vecDF.select("features", colArray: _*).show(10, truncate = false)

+----------------------------+----+------------+-------------+---------+----------+------+

|features                    |age |yearsmarried|religiousness|education|occupation|rating|

+----------------------------+----+------------+-------------+---------+----------+------+

|[37.0,10.0,3.0,18.0,7.0,4.0]|37.0|10.0        |3.0          |18.0     |7.0       |4.0   |

|[27.0,4.0,4.0,14.0,6.0,4.0] |27.0|4.0         |4.0          |14.0     |6.0       |4.0   |

|[32.0,15.0,1.0,12.0,1.0,4.0]|32.0|15.0        |1.0          |12.0     |1.0       |4.0   |

|[57.0,15.0,5.0,18.0,6.0,5.0]|57.0|15.0        |5.0          |18.0     |6.0       |5.0   |

|[22.0,0.75,2.0,17.0,6.0,3.0]|22.0|0.75        |2.0          |17.0     |6.0       |3.0   |

|[32.0,1.5,2.0,17.0,5.0,5.0] |32.0|1.5         |2.0          |17.0     |5.0       |5.0   |

|[22.0,0.75,2.0,12.0,1.0,3.0]|22.0|0.75        |2.0          |12.0     |1.0       |3.0   |

|[57.0,15.0,2.0,14.0,4.0,4.0]|57.0|15.0        |2.0          |14.0     |4.0       |4.0   |

|[32.0,15.0,4.0,16.0,1.0,2.0]|32.0|15.0        |4.0          |16.0     |1.0       |2.0   |

|[22.0,1.5,4.0,14.0,4.0,5.0] |22.0|1.5         |4.0          |14.0     |4.0       |5.0   |

+----------------------------+----+------------+-------------+---------+----------+------+

only showing top 10 rows

VectorIndexer自动识别分类的特征，并对它们进行索引

import org.apache.spark.ml.feature.VectorIndexer

val colArray = Array("age", "yearsmarried", "religiousness", "education", "occupation", "rating") 

// 自动识别分类的特征，并对它们进行索引

// 具有大于7个不同的值的特征被视为连续。

val featureIndexer = new VectorIndexer()

.setInputCol("features")

.setOutputCol("indexedFeatures")

.setMaxCategories(7)

.fit(vecDF)

val categoricalFeatures: Set[Int] = featureIndexer.categoryMaps.keys.toSet

categoricalFeatures: Set[Int] = Set(2, 3, 4, 5)

println(s"Chose ${categoricalFeatures.size} categorical features: " +

         categoricalFeatures.mkString(", "))

Chose 4 categorical features: 2, 3, 4, 5

// 由此看出，当MaxCategories=7，从6个字段中识别出了4个“类别特征字段”，

// 他们的下标索引为(2, 3, 4, 5),分别对应colArray中的(2, 3, 4, 5)元素，即"religiousness", "education", "occupation", "rating"

// 为什么识别出了4个“类别特征字段”呢，请看本人博客http://www.cnblogs.com/wwxbi/p/6125363.html“统计字段中元素的个数”

// 从“统计字段中元素的个数”看出，("religiousness", "education", "occupation", "rating")这4个字段的元素个数<=7

// Create new column "indexedFeatures" with categorical values transformed to indices

val indexedData = featureIndexer.transform(vecDF)

indexedData: org.apache.spark.sql.DataFrame = [affairs: double, gender: string ... 9 more fields]

val resColArray = Array("indexedFeatures", "features", "age", "yearsmarried", "religiousness", "education", "occupation", "rating")

resColArray: Array[String] = Array(indexedFeatures, features, age, yearsmarried, religiousness, education, occupation, rating)

indexedData.selectExpr(resColArray: _*).show(10, truncate = false)

+---------------------------+----------------------------+----+------------+-------------+---------+----------+------+

|indexedFeatures            |features                    |age |yearsmarried|religiousness|education|occupation|rating|

+---------------------------+----------------------------+----+------------+-------------+---------+----------+------+

|[37.0,10.0,2.0,5.0,6.0,3.0]|[37.0,10.0,3.0,18.0,7.0,4.0]|37.0|10.0        |3.0          |18.0     |7.0       |4.0   |

|[27.0,4.0,3.0,2.0,5.0,3.0] |[27.0,4.0,4.0,14.0,6.0,4.0] |27.0|4.0         |4.0          |14.0     |6.0       |4.0   |

|[32.0,15.0,0.0,1.0,0.0,3.0]|[32.0,15.0,1.0,12.0,1.0,4.0]|32.0|15.0        |1.0          |12.0     |1.0       |4.0   |

|[57.0,15.0,4.0,5.0,5.0,4.0]|[57.0,15.0,5.0,18.0,6.0,5.0]|57.0|15.0        |5.0          |18.0     |6.0       |5.0   |

|[22.0,0.75,1.0,4.0,5.0,2.0]|[22.0,0.75,2.0,17.0,6.0,3.0]|22.0|0.75        |2.0          |17.0     |6.0       |3.0   |

|[32.0,1.5,1.0,4.0,4.0,4.0] |[32.0,1.5,2.0,17.0,5.0,5.0] |32.0|1.5         |2.0          |17.0     |5.0       |5.0   |

|[22.0,0.75,1.0,1.0,0.0,2.0]|[22.0,0.75,2.0,12.0,1.0,3.0]|22.0|0.75        |2.0          |12.0     |1.0       |3.0   |

|[57.0,15.0,1.0,2.0,3.0,3.0]|[57.0,15.0,2.0,14.0,4.0,4.0]|57.0|15.0        |2.0          |14.0     |4.0       |4.0   |

|[32.0,15.0,3.0,3.0,0.0,1.0]|[32.0,15.0,4.0,16.0,1.0,2.0]|32.0|15.0        |4.0          |16.0     |1.0       |2.0   |

|[22.0,1.5,3.0,2.0,3.0,4.0] |[22.0,1.5,4.0,14.0,4.0,5.0] |22.0|1.5         |4.0          |14.0     |4.0       |5.0   |

+---------------------------+----------------------------+----+------------+-------------+---------+----------+------+

only showing top 10 rows

import org.apache.spark.ml.feature.VectorSlicer

val slicer = new VectorSlicer().setInputCol("indexedFeatures").setOutputCol("slicerFeatures")

slicer.setIndices(Array(3))  // 此处的3对应“索引化”之前的字段“education”

val output = slicer.transform(indexedData)

output.select("indexedFeatures",

        "slicerFeatures",

        "education").limit(10).orderBy($"education").show(10, truncate = false)

+---------------------------+--------------+---------+

|indexedFeatures            |slicerFeatures|education|

+---------------------------+--------------+---------+

|[32.0,15.0,0.0,1.0,0.0,3.0]|[1.0]         |12.0     |

|[22.0,0.75,1.0,1.0,0.0,2.0]|[1.0]         |12.0     |

|[27.0,4.0,3.0,2.0,5.0,3.0] |[2.0]         |14.0     |

|[57.0,15.0,1.0,2.0,3.0,3.0]|[2.0]         |14.0     |

|[22.0,1.5,3.0,2.0,3.0,4.0] |[2.0]         |14.0     |

|[32.0,15.0,3.0,3.0,0.0,1.0]|[3.0]         |16.0     |

|[32.0,1.5,1.0,4.0,4.0,4.0] |[4.0]         |17.0     |

|[22.0,0.75,1.0,4.0,5.0,2.0]|[4.0]         |17.0     |

|[37.0,10.0,2.0,5.0,6.0,3.0]|[5.0]         |18.0     |

|[57.0,15.0,4.0,5.0,5.0,4.0]|[5.0]         |18.0     |

+---------------------------+--------------+---------+

// 由此看出，“类别特征字段”被索引化后，索引的编号是跟“原字段值的大小顺序”对照的，索引从0开始

// 索引编号(0,1,2,3,4,5,6)对应[9.0, 12.0, 14.0, 16.0, 17.0, 18.0, 20.0]

VectorSlicer向量切割

import org.apache.spark.ml.feature.VectorSlicer

val colArray = Array("age", "yearsmarried", "religiousness", "education", "occupation", "rating") 

// 字段转换成特征向量

val assembler = new VectorAssembler().setInputCols(colArray).setOutputCol("features")

val vecDF = assembler.transform(data)

val slicer = new VectorSlicer().setInputCol("features").setOutputCol("slicerFeatures")

// 指定“向量字段features”中的下标索引

// (2, 3, 4)分别对应字段("religiousness", "education", "occupation")

slicer.setIndices(Array(2, 3, 4)) 

val output = slicer.transform(vecDF)

output.select("features", "slicerFeatures","religiousness", "education", "occupation").show(10, truncate = false)

+----------------------------+--------------+-------------+---------+----------+

|features                    |slicerFeatures|religiousness|education|occupation|

+----------------------------+--------------+-------------+---------+----------+

|[37.0,10.0,3.0,18.0,7.0,4.0]|[3.0,18.0,7.0]|3.0          |18.0     |7.0       |

|[27.0,4.0,4.0,14.0,6.0,4.0] |[4.0,14.0,6.0]|4.0          |14.0     |6.0       |

|[32.0,15.0,1.0,12.0,1.0,4.0]|[1.0,12.0,1.0]|1.0          |12.0     |1.0       |

|[57.0,15.0,5.0,18.0,6.0,5.0]|[5.0,18.0,6.0]|5.0          |18.0     |6.0       |

|[22.0,0.75,2.0,17.0,6.0,3.0]|[2.0,17.0,6.0]|2.0          |17.0     |6.0       |

|[32.0,1.5,2.0,17.0,5.0,5.0] |[2.0,17.0,5.0]|2.0          |17.0     |5.0       |

|[22.0,0.75,2.0,12.0,1.0,3.0]|[2.0,12.0,1.0]|2.0          |12.0     |1.0       |

|[57.0,15.0,2.0,14.0,4.0,4.0]|[2.0,14.0,4.0]|2.0          |14.0     |4.0       |

|[32.0,15.0,4.0,16.0,1.0,2.0]|[4.0,16.0,1.0]|4.0          |16.0     |1.0       |

|[22.0,1.5,4.0,14.0,4.0,5.0] |[4.0,14.0,4.0]|4.0          |14.0     |4.0       |

+----------------------------+--------------+-------------+---------+----------+

only showing top 10 rows

output.printSchema()

root

 |-- affairs: double (nullable = false)

 |-- gender: string (nullable = true)

 |-- age: double (nullable = false)

 |-- yearsmarried: double (nullable = false)

 |-- children: string (nullable = true)

 |-- religiousness: double (nullable = false)

 |-- education: double (nullable = false)

 |-- occupation: double (nullable = false)

 |-- rating: double (nullable = false)

 |-- features: vector (nullable = true)

 |-- slicerFeatures: vector (nullable = true)

Bucketizer将连续数据离散化到指定的范围区间

import org.apache.spark.ml.feature.Bucketizer

// Double.NegativeInfinity：负无穷；Double.PositiveInfinity：正无穷

// 分为6个组：[负无穷,-100),[-100,-10),[-10,0),[0,10),[10,90),[90,正无穷)

val splits = Array(Double.NegativeInfinity, -100, -10, 0.0, 10, 90, Double.PositiveInfinity)

val data: Array[Double] = Array(-180,-160,-100,-50,-70,-20,-8,-5,-3, 0.0, 1,3,7,10,30,60,90,100,120,150)

val dataFrame = spark.createDataFrame(data.map(Tuple1.apply)).toDF("features")

dataFrame: org.apache.spark.sql.DataFrame = [features: double]

val bucketizer = new Bucketizer()

.setInputCol("features")

.setOutputCol("bucketedFeatures")

.setSplits(splits)

// 将原始数据转换为桶索引

val bucketedData = bucketizer.transform(dataFrame)

bucketedData: org.apache.spark.sql.DataFrame = [features: double, bucketedFeatures: double]

bucketedData.show(50,truncate=false)

+--------+----------------+

|features|bucketedFeatures|

+--------+----------------+

|-180.0  |0.0             |

|-160.0  |0.0             |

|-100.0  |1.0             |

|-50.0   |1.0             |

|-70.0   |1.0             |

|-20.0   |1.0             |

|-8.0    |2.0             |

|-5.0    |2.0             |

|-3.0    |2.0             |

|0.0     |3.0             |

|1.0     |3.0             |

|3.0     |3.0             |

|7.0     |3.0             |

|10.0    |4.0             |

|30.0    |4.0             |

|60.0    |4.0             |

|90.0    |5.0             |

|100.0   |5.0             |

|120.0   |5.0             |

|150.0   |5.0             |

+--------+----------------+

Spark特征(提取，转换，选择)extracting, transforming and selecting features的更多相关文章

Spark Extracting,transforming,selecting features
Spark(3) - Extracting, transforming, selecting features 官方文档链接:https://spark.apache.org/docs/2.2.0/m ...
Extracting and composing robust features with denosing autoencoders 论文
这是一篇发表于2008年初的论文. 文章主要讲了利用 denosing autoencoder来学习 robust的中间特征..进上步,说明,利用这个方法,可以初始化神经网络的权值..这就相当于一种非 ...
【Spark篇】---Spark中Transformations转换算子
一.前述 Spark中默认有两大类算子,Transformation(转换算子),懒执行.action算子,立即执行,有一个action算子 ,就有一个job. 通俗些来说由RDD变成RDD就是Tra ...
【转】Spark实现行列转换pivot和unpivot
背景做过数据清洗ETL工作的都知道,行列转换是一个常见的数据整理需求.在不同的编程语言中有不同的实现方法,比如SQL中使用case+group,或者Power BI的M语言中用拖放组件实现.今天正好 ...
Spark中RDD转换成DataFrame的两种方式（分别用Java和Scala实现）
一:准备数据源在项目下新建一个student.txt文件,里面的内容为: ,zhangsan, ,lisi, ,wanger, ,fangliu, 二:实现 Java版: 1.首先新建一个s ...
Spark之 RDD转换成DataFrame的Scala实现
依赖 <dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-sql_2. ...
Android oat文件提取转换
说明: 1.手机厂商可以修改Android源码并进行编译后再生成oat格式文件在手机上存储,比如boot-okhttp.oat,boot-framework.oat. 2.自带的apk可以调用这些模块 ...
【spark】常用转换操作：join
join就表示内连接. 对于内链接,对于给定的两个输入数据集(k,v1)和(k,v2) 根据相同的k进行连接,最终得到(k,(v1,v2))的数据集. 示例 val arr1 = Array((&qu ...
【spark】常用转换操作：keys 、values和mapValues
1.keys 功能: 返回所有键值对的key 示例 val list = List("hadoop","spark","hive",&quo ...

随机推荐

Android开发学习笔记-GridView的动态显示
1.添加GridItem布局文件 <?xml version="1.0" encoding="utf-8"?> <LinearLayout x ...
元素随屏幕滚动到顶部固定js效果
网站中常见这种效果,某个广告或详情页切换tab,当屏幕向下移动时,该元素会停留在浏览器最顶部,下面ecshop模板中心教您实现js代码: 案例图: 1.首先在页面上找到该元素加上 id =&quo ...
PHPCMS V9 全站通用日期时间标签
用PHPCMS V9 建站时,经常会用到时间标签,它是通用标签调用-日期时间格式化,适用全站. 1.日期时间格式化显示: a\标准型:{date('Y-m-d H:i:s', $rs['inputti ...
PHP日期知识
(1)date用法: date(格式,[时间]);如果没有时间参数,则使用当前时间. 格式是一个字符串,其中以下字符有特殊意义:U 替换成从一个起始时间(好象是1970年1月1日)以来的秒数 Y 替换 ...
Docker技术原理
Docker技术原理之Linux Namespace(容器隔离) https://blog.csdn.net/songcf_faith/article/details/82748987 Docker技 ...
pycharm使用docker容器的python解释器，
上一篇是pycharm调用docker的镜像的python解释器. 此篇介绍pycharm 调用docker的容器的python解释器. 这两个思路还是不一样的,第一个是用pycham界面的选择pyt ...
8 -- 深入使用Spring -- 4... Spring的AOP
8.4 Spring的AOP AOP(Aspect Orient Programming),也就是面向切面编程,最为面向对象编程的一种补充. AOP和OOP互为补充,面向对象编程将程序分解成各个层次的 ...
Resolve PSExec "Access is denied"
PSExec拒绝访问的解决办法 Just modify Windows Registry, and reboot. psexec_fix.reg: Windows Registry Editor Ve ...
Linux进程作业的查看和杀死
引入进程进程线程 PS命令.TOP命令.其他查看进程命令进程的优先级作业控制机制 kill命令一.引入进程 1.内存划分为:用户空间和内核空间 1.在用户空间里运行的进程,就是用户进程,所属 ...
【MacOS】brew－python3
mkdir homebrew && curl -L https://github.com/Homebrew/brew/tarball/master | tar xz --strip 1 ...

Spark特征(提取，转换，选择)extracting, transforming and selecting features

Spark特征(提取，转换，选择)extracting, transforming and selecting features的更多相关文章

随机推荐

热门专题