一、公式

卡方检验的基本公式，也就是χ2的计算公式，即观察值和理论值之间的偏差

卡方检验公式

其中：A 为观察值，E为理论值，k为观察值的个数，最后一个式子实际上就是具体计算的方法了 n 为总的频数，p为理论频率，那么n*p自然就是理论频数（理论值）

二、相关概念

卡方分布：可以看出当观察值和理论值十分接近的时候，也就是我们做的假设是正确的时候，χ2的值就越趋近于0，也就是说我们计算的偏差越小，那么假设值就越可能是对的，反之偏差值越大，假设值就越不准确。那么到底多大才算不准确，有没有个衡量的数值标准呢？答案是有：卡方分布。

卡方检验是以χ2分布为基础的一种常用假设检验方法。若k 个随机变量Z1、……、Zk 相互独立，且数学期望为0、方差为 1(即服从标准正态分布)，则随机变量X被称为服从自由度为 k 的卡方分布，记作

卡方分布

，卡方分布的公式为：

卡方分布

自由度：自由度指的是计算某一统计量时，取值不受限制的变量个数。通常df=n-k。其中n为样本数量，k为被限制的条件数或变量个数。自由度v=（行数-1）（列数-1）。

自由度与卡方分布的关系：

如图

自由度与卡方分布的关系图

图中的Freedom 这里有5条线，分别对应Freedom=1, 4, 10, 20 , 100 。这个Freedom 就是自由度，即个式子中独立变量的个数。 x 横坐标是卡方检验公式计算出来的偏差χ2，而 y 纵坐标表示假设的正确的概率。当自由度为1时，卡方分布式一个倾斜的曲线，当自由度逐渐增大是，卡方分布逐步变的平缓。在一定范围内，随着自由度越来越大，卡方分布会越来越接近正态分布。

三、利用卡方检验用来特征选择

特征选择（Feature Selection）：指的是在特征向量中选择出那些“优秀”的特征，组成新的、更“精简”的特征向量的过程。它在高维数据分析中十分常用，可以剔除掉“冗余”和“无关”的特征，提升学习器的性能。

特征选择方法和分类方法一样，也主要分为有监督（Supervised）和无监督（Unsupervised）两种，卡方选择则是统计学上常用的一种有监督特征选择方法，它通过对特征和真实标签之间进行卡方检验，来判断该特征和真实标签的关联程度，进而确定是否对其进行选择。

对于建立模型而言并非特征越多越好，因为建模的目标是使用尽量简单的模型去实现尽量好的效果。减少一些价值小贡献小的特征有利于在表现效果不变或降低度很小的前提下，新找到最简单的模型。

那么什么样的特征是价值小的呢？想想我们之所以用机器学习的模型去学习特征，是为了更好地预测被特征影响着的应变量（标签）。那么那些根本不会对应变量产生影响，或者影响很小的特征理应事先去掉。

那么怎么判断特征对应变量的影响程度的大小呢？我们可以使用卡方检验对特征与应变量进行独立性检验，如果独立性高，那么表示两者没太大关系，特征可以舍弃；如果独立性小，两者相关性高，则说明该特征会对应变量产生比较大的影响，应当选择。

卡方检验在实际应用到特征选择中的时候，不需要知道自由度，也不用知道卡方分布，只需要根据算出来的χ2 进行排序即可，值越大越好。挑选最大的一堆，就完成了利用卡方检验来进行特征提取。

四、代码实现

和ML库中的大多数学习方法一样，ML中的卡方选择也是以estimator+transformer的形式出现的，其主要由ChiSqSelector和ChiSqSelectorModel两个类来实现。

1、首先引入相关需要用的包

import java.util.Arrays;

import java.util.List;

import org.apache.spark.ml.feature.ChiSqSelector;

import org.apache.spark.ml.feature.ChiSqSelectorModel;

import org.apache.spark.ml.linalg.VectorUDT;

import org.apache.spark.ml.linalg.Vectors;

import org.apache.spark.sql.Dataset;

import org.apache.spark.sql.Row;

import org.apache.spark.sql.RowFactory;

import org.apache.spark.sql.SparkSession;

import org.apache.spark.sql.types.DataTypes;

import org.apache.spark.sql.types.Metadata;

import org.apache.spark.sql.types.StructField;

import org.apache.spark.sql.types.StructType;

2、接下来获取spark

SparkSession spark =  SparkSession.builder().appName("ChiSqSelectorTest").master("local").getOrCreate();

3、然后，我们构造一个数据集DataFrame：

List<Row> rawData = Arrays.asList(RowFactory.create(1, Vectors.dense(0.0, 0.0, 18.0, 1.0), 1),

                                  RowFactory.create(2, Vectors.dense(0.0, 1.0, 12.0, 0.0), 0),

                                  RowFactory.create(3, Vectors.dense(1.0, 0.0, 15.0, 0.1), 0));

StructType schema = new StructType(new StructField[] {

        new StructField("id",DataTypes.IntegerType,false,Metadata.empty()),

        new StructField("features",new VectorUDT(),false,Metadata.empty()),

        new StructField("label",DataTypes.IntegerType,false,Metadata.empty())

});

Dataset<Row> df = spark.createDataFrame(rawData,schema);

df.show(false);

打印结果：

+---+------------------+-----+

|id |features          |label|

+---+------------------+-----+

|1  |[0.0,0.0,18.0,1.0]|1    |

|2  |[0.0,1.0,12.0,0.0]|0    |

|3  |[1.0,0.0,15.0,0.1]|0    |

+---+------------------+-----+

4、接着我们开始用卡方选择进行特征选择器的训练

ChiSqSelector select = new ChiSqSelector().setNumTopFeatures(1)

                                          .setFeaturesCol("features")

                                          .setLabelCol("label")

                                          .setOutputCol("selected-feature");

ChiSqSelectorModel selectModel = select.fit(df);

Dataset<Row> result = selectModel.transform(df);

result.show(false);

numTopFeatures：用来设置固定的提取特征的数量，程序会根据卡方值的高低返回前n个卡方值最高的特征。（预测能力最强的前n个特征），默认选择前50个特征。这里，我们设置ChiSqSelector（卡方选择器）的numTopFeatures = 1，即在4个特征中选择处最好的1个特征。

打印结果：

+---+------------------+-----+----------------+

|id |features          |label|selected-feature|

+---+------------------+-----+----------------+

|1  |[0.0,0.0,18.0,1.0]|1    |[18.0]          |

|2  |[0.0,1.0,12.0,0.0]|0    |[12.0]          |

|3  |[1.0,0.0,15.0,0.1]|0    |[15.0]          |

+---+------------------+-----+----------------+

用训练出的模型对原数据集进行处理，可以看见，第三列特征被选出作为最有用的特征列。

spark机器学习从0到1特征选择-卡方选择器（十五）的更多相关文章

特征选择--->卡方选择器
特征选择(Feature Selection)指的是在特征向量中选择出那些“优秀”的特征,组成新的.更“精简”的特征向量的过程.它在高维数据分析中十分常用,可以剔除掉“冗余”和“无关”的特征,提升学习 ...
spark机器学习从0到1介绍入门之(一）
一.什么是机器学习机器学习(Machine Learning, ML)是一门多领域交叉学科,涉及概率论.统计学.逼近论.凸分析.算法复杂度理论等多门学科.专门研究计算机怎样模拟或实现人类的学习行 ...
spark机器学习从0到1基本的统计工具之(三）
给定一个数据集,数据分析师一般会先观察一下数据集的基本情况,称之为汇总统计或者概要性统计.一般的概要性统计用于概括一系列观测值,包括位置或集中趋势(比如算术平均值.中位数.众数和四分位均值),展型 ...
spark机器学习从0到1特征提取 TF-IDF(十二）
一.概念 “词频-逆向文件频率”(TF-IDF)是一种在文本挖掘中广泛使用的特征向量化方法,它可以体现一个文档中词语在语料库中的重要程度. 词语由t表示,文档由d表示,语料库由D表示.词频TF ...
spark机器学习从0到1决策树(六）
一.概念决策树及其集合是分类和回归的机器学习任务的流行方法. 决策树被广泛使用,因为它们易于解释,处理分类特征,扩展到多类分类设置,不需要特征缩放,并且能够捕获非线性和特征交互. 诸如随机森林和 ...
spark机器学习从0到1特征变换-标签和索引的转化（十六）
一.原理在机器学习处理过程中,为了方便相关算法的实现,经常需要把标签数据(一般是字符串)转化成整数索引,或是在计算结束后将整数索引还原为相应的标签. Spark ML 包中提供了几个相关的转换器 ...
spark机器学习从0到1机器学习工作流 (十一）
一.概念一个典型的机器学习过程从数据收集开始,要经历多个步骤,才能得到需要的输出.这非常类似于流水线式工作,即通常会包含源数据ETL(抽取.转化.加载),数据预处理,指标提取,模型训练与交叉 ...
spark机器学习从0到1奇异值分解-SVD (七）
降维(Dimensionality Reduction) 是机器学习中的一种重要的特征处理手段,它可以减少计算过程中考虑到的随机变量(即特征)的个数,其被广泛应用于各种机器学习问题中,用于消除噪声 ...
spark机器学习从0到1基本数据类型之(二）
MLlib支持存储在单个机器上的局部向量和矩阵,以及由一个或多个RDD支持的分布式矩阵. 局部向量和局部矩阵是用作公共接口的简单数据模型. 底层线性代数操作由Breeze提供. 在监督学习中使 ...

随机推荐

Win10桌面美化
捯饬了几个小时终于捯饬好了,没什么特效,就是看起来干净了许多. 用到的小软件: 链接:https://pan.baidu.com/s/1_PSTn0JZ22ZGiMDOdvdWEw提取码:329c 1 ...
2019-2020-1 20199310《Linux内核原理与分析》第一周作业
1.问题描述 1.1 问题一 Linux文件系统中的文件是数据的集合,文件系统不仅包含着文件中的数据而且还有文件系统的结构,探究根目录下主要文件用途. 1.2 问题二有一个非常重要的文件(passw ...
js的属性监听
<!DOCTYPE html> <html> <head> <meta charset="UTF-8"> <title ...
第三方库PyYAML
建议参考PyYAML Documentation来源:http://pyyaml.org/wiki/PyYAMLDocumentation:http://blog.csdn.net/conquer07 ...
标准库ConfigParser模块
用于生成和修改常见配置文档,当前模块的名称在 python 3.x 版本中变更为 configparser. 来看一个好多软件的常见文档格式如下: 1 2 3 4 5 6 7 8 9 10 11 12 ...
获取系统DPI、系统显示比例等
using System; using System.Drawing; using System.Runtime.InteropServices; namespace XYDES { public c ...
Codeforces Round #561 (Div. 2) A. Silent Classroom(贪心）
A. Silent Classroom time limit per test1 second memory limit per test256 megabytes inputstandard inp ...
洛谷P5018 对称二叉树
不多扯题目直接题解= = 1.递归由题目可以得知,子树既可以是根节点和叶节点组成,也可以是一个节点,题意中的对称二叉子树是必须由一个根节点一直到树的最底部所组成的树. 这样一来就简单了,我们很容易 ...
Java.lang.String类
1.String类定义 String 字符串对象本质上是一个 final 修饰的字符串数组对象, java字符串就是Unicode字符序列. 因为被final修饰, 所以字符串是常量,它们的值一旦 ...
commons-logging slf4j log4j 区别
日志门面 1.Apache通用日志接口(commons-logging.jar) Apache Commons包中的一个,包含了日志功能,必须使用的jar包.这个包本身包含了一个Simple Logg ...