特征选择--->卡方选择器

特征选择（Feature Selection）指的是在特征向量中选择出那些“优秀”的特征，组成新的、更“精简”的特征向量的过程。它在高维数据分析中十分常用，可以剔除掉“冗余”和“无关”的特征，提升学习器的性能。

特征选择方法和分类方法一样，也主要分为有监督（Supervised）和无监督（Unsupervised）两种，卡方选择则是统计学上常用的一种有监督特征选择方法，它通过对特征和真实标签之间进行卡方检验，来判断该特征和真实标签的关联程度，进而确定是否对其进行选择。

package Spark_MLlib

import org.apache.spark.ml.feature.ChiSqSelector

import org.apache.spark.ml.linalg.Vectors

import org.apache.spark.sql.SparkSession

object 特征选择_卡方选择器 {

     val spark= SparkSession.builder().master("local").appName("卡方特征选择").getOrCreate()

     import spark.implicits._

  def main(args: Array[String]): Unit = {

    val df=spark.createDataFrame(Seq(

      (,Vectors.dense(,,,),),

      (,Vectors.dense(,,,),),

      (,Vectors.dense(,,,),),

      (,Vectors.dense(,,,),),  //这里第一个0变为1,选2个特征输出时会不同

      (,Vectors.dense(,,,),)

    )).toDF("id","features","label")

     df.show()

    val selector=new ChiSqSelector().setNumTopFeatures().setFeaturesCol("features").setLabelCol("label").setOutputCol("selectedFeatures")//setNumTopFeatures(1):设置只选择和标签关联性最强的2个特征

    val selector_model=selector.fit(df)

    val result=selector_model.transform(df)

    result.show(false)

  }

}

结果：

+---+------------------+-----+
| id|          features|label|
+---+------------------+-----+
| 1|[0.0,0.0,30.0,1.0]|    1|
| 2|[0.0,1.0,20.0,0.0]|    0|
| 3|[1.0,0.0,15.0,2.0]|    0|
| 4|[0.0,1.0,28.0,0.0]|    1|
| 5|[1.0,0.0,27.0,0.0]|    0|
+---+------------------+-----+

+---+------------------+-----+----------------+
|id |features          |label|selectedFeatures|
+---+------------------+-----+----------------+
|1 |[0.0,0.0,30.0,1.0]|1    |[0.0,30.0]      |
|2 |[0.0,1.0,20.0,0.0]|0    |[0.0,20.0]      |
|3 |[1.0,0.0,15.0,2.0]|0    |[1.0,15.0]      |
|4 |[0.0,1.0,28.0,0.0]|1    |[0.0,28.0]      |
|5 |[1.0,0.0,27.0,0.0]|0    |[1.0,27.0]      |
+---+------------------+-----+----------------+

特征选择--->卡方选择器的更多相关文章

spark机器学习从0到1特征选择-卡方选择器（十五）
一.公式卡方检验的基本公式,也就是χ2的计算公式,即观察值和理论值之间的偏差卡方检验公式其中:A 为观察值,E为理论值,k为观察值的个数,最后一个式子实际上就是具体计算的方法了 n 为总 ...
Spark MLlib编程API入门系列之特征选择之卡方特征选择（ChiSqSelector）
不多说,直接上干货! 特征选择里,常见的有:VectorSlicer(向量选择) RFormula(R模型公式) ChiSqSelector(卡方特征选择). ChiSqSelector用于使用卡方检 ...
互信息 & 卡方 - 文本挖掘
在做文本挖掘,特别是有监督的学习时,常常需要从文本中提取特征,提取出对学习有价值的分类,而不是把所有的词都用上,因此一些词对分类的作用不大,比如“的.是.在.了”等停用词.这里介绍两种常用的特征选择方 ...
数据分箱：等频分箱，等距分箱，卡方分箱，计算WOE、IV
转载:https://zhuanlan.zhihu.com/p/38440477 转载:https://blog.csdn.net/starzhou/article/details/78930490 ...
图像检索：RGBHistogram+欧几里得距离|卡方距离
RGBHistogram: 分别计算把彩色图像的三个通道R.G.B的一维直方图,然后把这三个通道的颜色直方图结合起来,就是颜色的描写叙述子RGBHistogram. 以下给出计算RGBHistogra ...
t分布, 卡方x分布，F分布
T分布:温良宽厚本文由“医学统计分析精粹”小编“Hiu”原创完成,文章采用知识共享Attribution-NonCommercial-NoDerivatives 4.0国际许可协议(http://c ...
卡方分布、卡方独立性检验和拟合性检验理论及其python实现
如果你在寻找卡方分布是什么?如何实现卡方检验?那么请看这篇博客,将以通俗易懂的语言,全面的阐述卡方.卡方检验及其python实现. 1. 卡方分布 1.1 简介抽样分布有三大应用:T分布.卡方分布和 ...
R-5 相关分析-卡方分析
本节内容: 1:相关分析 2:卡方分析一.相关分析相关系数: 皮尔逊相关系数:一般用来计算两个连续型变量的相关系数. 肯德尔相关系数:一个连续一个分类(最好是定序变量) 斯皮尔曼相关系数:2个变量 ...
方差分析、T检验、卡方分析如何区分？
差异研究的目的在于比较两组数据或多组数据之间的差异,通常包括以下几类分析方法,分别是方差分析.T检验和卡方检验. 三个方法的区别其实核心的区别在于:数据类型不一样.如果是定类和定类,此时应该使用卡方 ...

随机推荐

在做导入一个excel文件的时候,数据有空值的时候
StringUtil.isNotEmpty(i.getFname()),用这个方法可以解决 java string 去除前后两端的空格和空字符使用.trim()
eBPF监控工具bcc系列五工具funccount
eBPF监控工具bcc系列五工具funccount funccount函数可以通过匹配来跟踪函数,tracepoints 或USDT探针.例如所有以vfs_ 开头的内核函数. ./funccount ...
Error LNK2019: unresolved external symbol C++模板类声明与定义链接错误问题
编译器在编译模板时,并不会生成代码,只有遇到实例化的时候才会生成代码.因此,当我们只引用模板声明文件的时候,在实例化的对象时候,模板的定义问文件是不可见的,于是出现链接错误.例如: //A.h #pr ...
大数低速幂运算模板（c++）+python大数幂
简介自己从大数加法改过来的模板,低速计算n的t次幂,n,t小于等于100速度能够保证模板 #include <bits/stdc++.h> using namespace std; s ...
Python学习：ModuleNotFoundError: No module named 'pygal.i18n' 的解决方法
最近在学<Python编程:从入门到实践>,16.2小结中 from pygal.i18n import COUNTRIES 获取两个字母的国别码,我用的pygal的版本是2.4.0(终端 ...
FJoi2017 1月20日模拟赛交错和(等差数列+rmq)
[题目描述] 无限循环数字串S由长度为n的循环节s构成.设s为12345(n=5),则数字串S为123451234512345… 设Si为S的第i位数字,在上面的例子中,S1=1,S2=2,S6=1. ...
[bzoj4027][HEOI2015][兔子与樱花] (树形dp思想+玄学贪心)
Description 很久很久之前,森林里住着一群兔子.有一天,兔子们突然决定要去看樱花.兔子们所在森林里的樱花树很特殊.樱花树由n个树枝分叉点组成,编号从0到n-1,这n个分叉点由n-1个树枝连接 ...
hdu 2602 简单0-1背包模板题
#include<stdio.h> #include<string.h> #define N 1100 int dp[N]; int main() { int n,t,m,a[ ...
NOIP2012 提高组合集
NOIP 2012 提高组合集 D1 T1 Vigenère 密码模拟题,观察到两个数对应位置-1相加的和%26就是对应的字母,按照这个性质模拟即可. #include <iostream& ...
Pivotal-tc-Server与Tomcat区别
Pivotal-tc-Server之前叫做SpringSource tc Server,包含三个版本分别是:Spring版.标准版和开发版,但其中只有开发版是免费的.比如在STS中包含的版本就是开发板 ...

特征选择--->卡方选择器

特征选择--->卡方选择器的更多相关文章

随机推荐

热门专题