[ML] Feature Selectors

SparkML中关于特征的算法可分为：Extractors（特征提取）、Transformers（特征转换）、Selectors（特征选择）三部分。

Ref: SparkML中三种特征选择算法（VectorSlicer/RFormula/ChiSqSelector）

一、代码示范

VectorSlicer 只是根据index而“手动指定特征”的手段，不是特征选择的依据。

RFormula 也只是根据column而“手动指定特征”的手段，不是特征选择的依据。

VectorSlicer
from pyspark.ml.feature import VectorSlicer

from pyspark.ml.linalg import Vectors

from pyspark.sql.types import Row

df = spark.createDataFrame([

    Row(userFeatures=Vectors.sparse(3, {0: -2.0, 1: 2.3})),

    Row(userFeatures=Vectors.dense([-2.0, 2.3, 0.0]))])

df.show()

+--------------------+

|        userFeatures|

+--------------------+

|(3,[0,1],[-2.0,2.3])|

|      [-2.0,2.3,0.0]|

+--------------------+

slicer = VectorSlicer(inputCol="userFeatures", outputCol="features", indices=[1])

output = slicer.transform(df)

output.select("userFeatures", "features").show()

+--------------------+-------------+

|        userFeatures|     features|

+--------------------+-------------+

|(3,[0,1],[-2.0,2.3])|(1,[0],[2.3])|

|      [-2.0,2.3,0.0]|        [2.3]|

+--------------------+-------------+

RFormula
from pyspark.ml.feature import RFormula

dataset = spark.createDataFrame(

    [(7, "US", 18, 1.0),

     (8, "CA", 12, 0.0),

     (9, "NZ", 15, 0.0)],

    ["id", "country", "hour", "clicked"])

formula = RFormula(

    formula="clicked ~ country + hour",　　# 指定使用两个特征，country特征会自动采用one hot编码。

    featuresCol="features",

    labelCol="label")

output = formula.fit(dataset).transform(dataset)

output.select("features", "label").show()

+--------------+-----+

|      features|label|

+--------------+-----+

|[0.0,0.0,18.0]|  1.0|

|[0.0,1.0,12.0]|  0.0|

|[1.0,0.0,15.0]|  0.0|

+--------------+-----+

ChiSqSelector
from pyspark.ml.feature import ChiSqSelector

from pyspark.ml.linalg import Vectors

df = spark.createDataFrame([

    (7, Vectors.dense([0.0, 0.0, 18.0, 1.0]), 1.0,),

    (8, Vectors.dense([0.0, 1.0, 12.0, 0.0]), 0.0,),

    (9, Vectors.dense([1.0, 0.0, 15.0, 0.1]), 0.0,)], ["id", "features", "clicked"])

selector = ChiSqSelector(numTopFeatures=1, featuresCol="features",

                         outputCol="selectedFeatures", labelCol="clicked")

result = selector.fit(df).transform(df)

print("ChiSqSelector output with top %d features selected" % selector.getNumTopFeatures())

result.show()

ChiSqSelector output with top 1 features selected

+---+------------------+-------+----------------+

| id|          features|clicked|selectedFeatures|

+---+------------------+-------+----------------+

|  7|[0.0,0.0,18.0,1.0]|    1.0|          [18.0]|

|  8|[0.0,1.0,12.0,0.0]|    0.0|          [12.0]|

|  9|[1.0,0.0,15.0,0.1]|    0.0|          [15.0]|

+---+------------------+-------+----------------+

二、实践心得

参考：[Feature] Feature selection

Outline

3.1 Filter

3.1.1 方差选择法

3.1.2 相关系数法

3.1.3 卡方检验　　　　# <---- ChiSqSelector

3.1.4 互信息法

3.2 Wrapper

3.2.1 递归特征消除法

3.3 Embedded

3.3.1 基于惩罚项的特征选择法

3.3.2 基于树模型的特征选择法

三、Embedded

Ref: [Feature] Feature selection - Embedded topic

问题，spark.ml可以lasso线性回归么？2.4.4貌似没有，但mllib里有，功能完善度不是很满意。

classification (SVMs, logistic regression)

linear regression (least squares, Lasso, ridge)

后者采样后，使用sklearn处理画出"轨迹图"。

使用Spark SQL在DataFrame中采样构成子数据集的过程。

End.

[ML] Feature Selectors的更多相关文章

[ML] Feature Transformers
方案选择可参考:[Scikit-learn] 4.3 Preprocessing data 代码示范可参考:[ML] Pyspark ML tutorial for beginners 本篇涉及:Fe ...
Spark.ML之PipeLine学习笔记
地址: http://spark.apache.org/docs/2.0.0/ml-pipeline.html Spark PipeLine 是基于DataFrames的高层的API,可以方便用户 ...
Add AI feature to Xamarin.Forms app
Now, AI is one of important technologies.Almost all platforms have API sets of AI. Following list is ...
spark ML pipeline 学习
一.pipeline 一个典型的机器学习过程从数据收集开始,要经历多个步骤,才能得到需要的输出.这非常类似于流水线式工作,即通常会包含源数据ETL(抽取.转化.加载),数据预处理,指标提取,模型训练与 ...
Spark ML机器学习
Spark提供了常用机器学习算法的实现, 封装于spark.ml和spark.mllib中. spark.mllib是基于RDD的机器学习库, spark.ml是基于DataFrame的机器学习库. ...
Spark ML 几种归一化(规范化)方法总结
规范化,有关之前都是用 python写的, 偶然要用scala 进行写, 看到这位大神写的, 那个网页也不错,那个连接图做的还蛮不错的,那天也将自己的博客弄一下那个插件. 本文来源原文地址:htt ...
Spark2 ML包之决策树分类Decision tree classifier详细解说
所用数据源,请参考本人博客http://www.cnblogs.com/wwxbi/p/6063613.html 1.导入包 import org.apache.spark.sql.SparkSess ...
基于Spark ML的Titanic Challenge (Top 6%)
下面代码按照之前参加Kaggle的python代码改写,只完成了模型的训练过程,还需要对test集的数据进行转换和对test集进行预测. scala 2.11.12 spark 2.2.2 packa ...
ML学习笔记之TF-IDF原理及使用
0x00 什么是TF-IDF TF-IDF(Term Frequency-Inverse Document Frequency, 词频-逆文件频率). # 是一种用于资讯检索与资讯探勘的常用加权技术. ...

随机推荐

飞漫魏永明：从MiniGUI看嵌入式十年得与失
日前,飞漫软件创始人魏永明,在飞漫成立十周年之际,回顾了公司发展这十年,同时也回顾了嵌入式发展的这十年.魏永明以自身涉及嵌入式产业的方方面面,创新.人员管理.工程管理.教育培训.经营策略等多方面,并且 ...
web开发：动画及阴影
一.小米拼接二.过渡动画三.过度案例四.盒子阴影五.伪类设计边框一.小米拼接将区域整体划分起名 => 对其他区域布局不产生影响提出公共css => reset操作当有区域发送显 ...
Linux下安装opencv（踩坑记录帖）
1.首先安装依赖项:sudo apt install build-essential sudo apt install build-essentialsudo apt install cmake gi ...
修改input file 文件上传的样式
Web页面中,在需要上传文件时基本都会用到<input type="file">元素,它的默认样式: chrome下: IE下: 不管是上面哪种,样式都比较简单,和很多 ...
es中的相关知识一(基本知识和id的定义)
一.es中文档的元数据包括: 1._index: 索引(index)类似于关系型数据库里的数据库(database),事实上,我们的数据被存储和索引在分片(shards)中,索引知识把一个或多个分片分 ...
JDK的收费问题
关于JDK是否收费,我也有过疑问,查了一些资料,就在这里做一个简要的说明. 首先要明白JDK的发布模型.两年多以前,2017年9月21日,伴随着JDK9的发布,JDK就开启了新的发布模式(如下图所示) ...
Linux命令之nano（简单文本编辑器）
nano 字符终端文本编辑器补充说明 nano 是一个字符终端的文本编辑器,有点像DOS下的editor程序.它比vi/vim要简单得多,比较适合Linux初学者使用.某些Linux发行版的默认编辑 ...
音频转换 wav to wav、mp3或者其它
1.首先介绍一种NAudio 的方式需要导入 NAudio.dll 下面请看核心代码 using (WaveFileReader reader = new WaveFileReader(in_pat ...
Luogu P2824 [HEOI2016/TJOI2016]排序线段树+脑子
只会两个$log$的$qwq$ 我们二分答案:设答案为$ans$,则我们把$a[i]<=ans$全部设成$0$,把$a[i]>ans$全部设成$1$,扔到线段树里,这样区间排序(升序)就是 ...
Hdu 4333 Revolving Digits(Exkmp)
Revolving Digits Time Limit: 3000/1000 MS (Java/Others) Memory Limit: 65536/32768 K (Java/Others) To ...