粒子群优化算法(PSO)之基于离散化的特征选择(FS)(四)
作者:Geppetto
前面我们介绍了特征选择(Feature Selection,FS)与离散化数据的重要性,介绍了PSO在FS中的重要性和一些常用的方法、FS与离散化的背景,介绍了EPSO与PPSO方法。今天我们将介绍与实验相关的细节,包括数据集、用于与我们方法进行比较的基线方法、参数设置、终止标准以及实验的硬件配置。
A. 实验设计
(1) 数据集
为了在高维数据上测试PPSO的性能,我们使用了在http://www.gems-system.org上提供的10个基因表达数据集。表1描述了关于这些数据集的详细信息。

表1.数据集
(2)基线法
为了验证PPSO在离散化和FS中的有效性,我们比较了KNN在PPSO、原始数据集和EPSO转换数据集上的分类性能。我们还将PPSO与两阶段方法(PSO-FS)进行了比较,以确定单阶段方法的性能是否优于两阶段方法。在PSO-FS中,MDL用于在应用PSO进行特征子集选择之前对数据进行离散化。我们还比较了几种传统的两阶段方法,将MDL与LFS进行离散化,采用一致性方法和基于相关的FS (CFS)方法。我们还将PPSO与MChi2进行了比较,MChi2是一种典型的通过离散化处理FS的方法。
(3)参数设置与终止条件
表2描述了三种比较方法PSO-FS、EPSO和PPSO的参数设置。由于搜索空间的大小与问题的维数成正比,问题的维数因数据集而异。10个数据集中的特征数量从2000到12000,导致搜索空间的大小非常不同。因此,我们将总体大小设为特征数除以20,由于计算机内存有限,最大限制为300。最大迭代次数被设置为70。然而,当gbest在10次迭代之后没有得到改进时,也应用了早期停止。PPSO中的比例标准是gbest在10次迭代后没有得到改善,当前gbest适应度至少比以前gbest适应度好1%。对于多类数据集,PPSO的初始大小为150。但是,根据我们的实验,这个值对于二进制类问题也是一个很好的初始大小,因为PSO能够在演化过程中选择适当的特征子集大小。每次满足标度的标准时,初始大小就增加50。

表2.PSO参数设置
(4)实验配置
作为一种包装方法,PPSO可以使用任何学习算法的分类性能来评估粒子。本文使用k = 1的KNN,因为它简单、快速、参数少。
因为这些数据集小样本大小,我们使用10倍交叉验证(CV)产生训练集和测试集。在每一个CV,使用单一的形式使用测试集和剩下的九倍,形成训练集。测试集用于评估产生的离散化和FS基于训练集的每个解决方法。在进化过程中,一个内部循环的十倍的CV训练集用于fitness评估。因此,每一种方法都包含了推荐的两个CV循环,以避免FS偏差。
为了消除统计上的差异,每个方法都对每个数据集运行30次,每次都有不同的随机种子。由于每个数据集使用10倍CV分解为训练和测试集,每个方法总共执行300次。实验是在PC上运行的英特尔核心i7-4770 CPU @ 3.4 GHz和8-GB内存。用统计学的威克森显著性检验和5%显著性水平进行比较,比较了各方法的30次运行结果。
B . 实验结果
表3显示了PSO-FS、EPSO和PPSO的结果。每个方法在30次运行中返回的平均特征子集大小显示在“size”列中。用“full”表示KNN精度的最佳、平均和标准偏差。在第4和第5列中显示了所有连续的特性,或者使用每个比较方法转换的数据。所报告的结果是基于前面介绍的平衡精度公式的测试精度。
“+”或“−”意味着结果比PPSO明显更好或更糟。” = “表示他们有相似的表现。

表3.实验结果
C . PPSO结果分析
从表3中可以看出,PPSO选择的特征的平均数明显小于特征的总数。PPSO在4个数据集中选择的特性总数不到1%,在5个数据集中选择不到2%,在SRBCT中选择4.6%。一般来说,PPSO在六个数据集上实现最小的子集。
使用离散和选择的特性,PPSO比在所有10个数据集中使用所有连续的特性获得更好的分类性能。在10个数据集中有7个的准确度提高了5%以上,在9Tumor中提高了23%。
结果表明,通过同时离散和选择单个阶段的相关特征,PPSO可以为高维数据集生成更强大、更紧凑的表示。
D . 总结
在本系列文章中我们提出一种利用BBPSO在单阶段离散化和FS的集成方法。通过提出一种新的方法PPSO,采用一种新的PSO表示法来选择分割点来离散多个特征,同时选择特征。与使用完整的原始特性集EPSO和两阶段方法(PSO-FS)进行比较。
实验结果表明,PPSO可以同时离散多个特征,并选择数量更少的相关特征,具有更好的识别能力。PPSO与PSO-FS的比较表明,离散化与FS在单个阶段结合更有效。与EPSO相比,PPSO获得的结果是相同的或更好的,但功能的数量更少。进一步的分析也表明,与比较的PSO方法相比,PPSO更通用、更可靠。
将PPSO与四种代表两阶段和一阶段方法的传统方法MDL+LFS、MDL+CON、MDL+CFS、MChi2进行了比较。两个实验的结果表明,在大多数情况下,PPSO的性能比MDL+LFS、MDL+CON和MChi2和类似的性能要好得多。结果还表明,在处理高维问题时,PPSO比MDL+CFS和MChi2具有更好的可扩展性。对KNN和NB的比较结果表明,与训练过程中使用的分类器相比,PPSO得到的解可以推广到其他分类器。
作为一种二进制离散化方法,PPSO在需要被离散成多个区间的数据上可能不能很好地工作。此外,还计算了基于MDLP的潜在点。因此,在今后的工作中,我们将研究如何利用其他的算法进行切入点计算、多区间离散化以及优化搜索过程的不同方法。
实证结果表明,PPSO的运行时间可扩展到具有10000+特征的高维数据。但是,由于PPSO表示是静态的,并且与特性集大小成正比,因此对具有10万多个特性的数据集应用PPSO可能会受到内存容量的限制。此外,由于可能的解决方案的指数增长,搜索空间将变得更大,因此可能需要用不同的方法来解决这个问题。将来,我们将研究如何在PPSO中使用动态表示来克服这个限制。
参考文献:
文章:“A New Representation in PSO for Discretization-Based Feature Selection”
作者:Binh Tran, Student Member, IEEE, Bing Xue, Member, IEEE, and Mengjie Zhang, Senior Member, IEEE
粒子群优化算法(PSO)之基于离散化的特征选择(FS)(四)的更多相关文章
- 粒子群优化算法(PSO)之基于离散化的特征选择(FS)(二)
欢迎大家关注我们的网站和系列教程:http://www.tensorflownews.com/,学习更多的机器学习.深度学习的知识! 作者:Geppetto 前面我们介绍了特征选择(Feature S ...
- 粒子群优化算法(PSO)之基于离散化的特征选择(FS)(一)
欢迎大家关注我们的网站和系列教程:http://www.tensorflownews.com/,学习更多的机器学习.深度学习的知识! 作者:Geppetto 在机器学习中,离散化(Discretiza ...
- 粒子群优化算法(PSO)之基于离散化的特征选择(FS)(三)
作者:Geppetto 前面我们介绍了特征选择(Feature Selection,FS)与离散化数据的重要性,总览的介绍了PSO在FS中的重要性和一些常用的方法,介绍了FS与离散化的背景,介绍本文所 ...
- 粒子群优化算法PSO及matlab实现
算法学习自:MATLAB与机器学习教学视频 1.粒子群优化算法概述 粒子群优化(PSO, particle swarm optimization)算法是计算智能领域,除了蚁群算法,鱼群算法之外的一种群 ...
- 数值计算:粒子群优化算法(PSO)
PSO 最近需要用上一点最优化相关的理论,特地去查了些PSO算法相关资料,在此记录下学习笔记,附上程序代码.基础知识参考知乎大佬文章,写得很棒! 传送门 背景 起源:1995年,受到鸟群觅食行为的规律 ...
- 粒子群优化算法(PSO)的基本概念
介绍了PSO基本概念,以及和遗传算法的区别: 粒子群算法(PSO)Matlab实现(两种解法)
- MATLAB粒子群优化算法(PSO)
MATLAB粒子群优化算法(PSO) 作者:凯鲁嘎吉 - 博客园 http://www.cnblogs.com/kailugaji/ 一.介绍 粒子群优化算法(Particle Swarm Optim ...
- ARIMA模型--粒子群优化算法(PSO)和遗传算法(GA)
ARIMA模型(完整的Word文件可以去我的博客里面下载) ARIMA模型(英语:AutoregressiveIntegratedMovingAverage model),差分整合移动平均自回归模型, ...
- 计算智能(CI)之粒子群优化算法(PSO)(一)
欢迎大家关注我们的网站和系列教程:http://www.tensorflownews.com/,学习更多的机器学习.深度学习的知识! 计算智能(Computational Intelligence , ...
随机推荐
- 【基础篇】hexo博客搭建教程
[基础篇]搭建hexo博客(一) 作者:Huanhao bilibili:Mrhuanhao 前言 你是否想拥有属于自己的博客?你是否无奈与自己不会写网站而烦恼? 不要担心,本系列教程将会实现你白嫖的 ...
- iOS下的 Fixed BUG
input 光标位置乱窜 固定式浮层内的输入框光标会发生偏移.即 fixed 定位的容器中输入框光标的位置显示不正确,没有正常地显示在输入框中,而是偏移到了输入框外面 可触发条件 页面body出现滚动 ...
- PHPRAP v1.0.6 发布,修复因php7.1版本遗弃mcrypt扩展造成安装失败的BUG
PHPRAP,是一个PHP轻量级开源API接口文档管理系统,致力于减少前后端沟通成本,提高团队协作开发效率,打造PHP版的RAP. 更新记录 [修复]修复因php7.1版本遗弃mcrypt扩展造成安装 ...
- OpenFlow(OVS)下的“路由技术”
前言 熟悉这款设备的同学,应该也快到不惑之年了吧!这应该是Cisco最古老的路由器了.上个世纪80年代至今,路由交换技术不断发展,但是在这波澜壮阔的变化之中,总有一些东西在嘈杂的机房内闪闪发光,像极了 ...
- 前端ps中常用的操作
昨天,ui给了个psd图,让写成网页.额,要自己切图.很久之前,操作的还凑乎.但是,好久了,都忘了.所以,打算自己记个笔记,方便以后查看. 首先,打开ps就先来设置一下ps的单位啦点击最上面的一行的编 ...
- Ant-design-pro的动态菜单的实现
页面效果: 如何实现: 1:分别建立SiderMenu和SubMenu组件 2.去and-desingn-vue的官方文档里copy单文件递归菜单的代码https://www.antdv.com/co ...
- TCP粘包很难么,为何我屡屡受挫??
无论走到哪里,都应该记住,过去都是假的,回忆是一条没有尽头的路,一切以往的春天都不复存在,就连那最坚韧而又狂乱的爱情归根结底也不过是一种转瞬即逝的现实. --马尔克斯 本文已经收录至我的GitHub, ...
- Matplotlib数据可视化(7):图片展示与保存
In [1]: import os import matplotlib.image as mpimg from PIL import Image import matplotlib.pyplot as ...
- c++第二周阶段小测2
函数参数已完成(全部是正确答案) 1 [单选题] 以下关于函数参数的说法,不正确的是 A. 函数调用时,先将实参的值按照位置传递给对应的形参. B. 实参与形参的个数及顺序不必一一对应. ...
- Python面向对象之:类空间问题以及类之间的关系
一. 类的空间问题 1.1 何处可以添加对象属性 class A: def __init__(self,name): self.name = name def func(self,sex): se ...