机器学习:不平衡信息有序平均加权最近邻算法IFROWANN
一 背景介绍
不平衡信息,特点是少数信息更珍贵,多数信息没有代表性。所以一般的分类算法会被多数信息影响,而忽略少数信息的重要性。
解决策略:
1.数据级别
(1)上采样:增加稀有类成本数
(2)下采样:减少大类样本数
(3)混合方法:结合(1)(2)
2.算法算法级别
(1)代价敏感学习方法:对正类错分赋予更高的代价,从而迫使分类器对正类有更高的识别率。
(2)分类器集成方法:首先数据级技术处理数据分布,然后选择算法级算法进行分类。
但这些策略都有各自的缺点,比如:上采用会导致过度学习,下采样会损失重要信息,代价敏感方法会使真实的代价很难被准确估计并且很多分类器只是简单的调整正负比 例或决策阈值,效果不好(但支持向量机和决策树可以直接引入)
二 不平衡信息分类问题
不平衡率
FRNN:通过计算每个类的上、下模糊粗糙近似度,为每个实例赋sum值。
IFROWANN:相对于大量信息,更加注重少量信息;通过OWA模糊粗糙集模型聚合样本的贡献。
三FRNN
模糊集:注重描述信息的含糊程度。
粗糙集:强调数据的不可辨别、不确定和模棱两可。
FRNN算法:
通过引入类模糊隶属度来处理类交叠和噪声存在的情况。
1.采用模糊分类,得到待分类样本x的k个近邻;
2.根据距离,对它们的决策作用加权。
核心是计算模糊粗糙隶属度。
四 IFROWANN算法
有序加权平均OWA:
(1)属性值按从小到大的顺序排序
(2)加权聚合
权重向量的选择:
例子:
五 总结
小结
IFROWANN对不平衡信息分类问题,不仅优于传统的FRNN算法,而且包括算法级别,代价敏感和集成方法中的最优算法。
待改善的地方:
1.结合数据级别技术,形成一个具有更好分类性能的集成方法;
2.使用包装方法或根据数据自身特性(不平衡率或数据复杂性特性),自动提取OWA的权重向量和训练集的不可辨别关系。
多类处理技术:
1.多类问题转化为两类问题处理,未来可以结合OVO + IFROWANN算法设计一个新的技术。
2.修改IFROWANN算法直接处理多类问题。
机器学习:不平衡信息有序平均加权最近邻算法IFROWANN的更多相关文章
- 机器学习学习笔记之一:K最近邻算法(KNN)
算法 假定数据有M个特征,则这些数据相当于在M维空间内的点 \[X = \begin{pmatrix} x_{11} & x_{12} & ... & x_{1M} \\ x_ ...
- KNN最近邻算法
算法概述 K最近邻(K-Nearest Neighbor,KNN)算法,是著名的模式识别统计学方法,在机器学习分类算法中占有相当大的地位.它是一个理论上比较成熟的方法.既是最简单的机器学习算法之一,也 ...
- 机器学习【一】K最近邻算法
K最近邻算法 KNN 基本原理 离哪个类近,就属于该类 [例如:与下方新元素距离最近的三个点中,2个深色,所以新元素分类为深色] K的含义就是最近邻的个数.在sklearn中,KNN的K值是通过n ...
- 在opencv3中实现机器学习算法之:利用最近邻算法(knn)实现手写数字分类
手写数字digits分类,这可是深度学习算法的入门练习.而且还有专门的手写数字MINIST库.opencv提供了一张手写数字图片给我们,先来看看 这是一张密密麻麻的手写数字图:图片大小为1000*20 ...
- 【udacity】机器学习-knn最近邻算法
Evernote Export 1.基于实例的学习介绍 不同级别的学习,去除所有的数据点(xi,yi),然后放入一个数据库中,下次直接提取数据 但是这样的实现方法将不能进行泛化,这种方式只能简单的 ...
- 机器学习-K最近邻算法
一.介绍 二.编程 练习一(K最近邻算法在单分类任务的应用): import numpy as np #导入科学计算包import matplotlib.pyplot as plt #导入画图工具fr ...
- K最近邻算法
K最近邻(K-Nearest-Neighbour,KNN)算法是机器学习里简单易掌握的一个算法.通过你的邻居判断你的类型,“近朱者赤,近墨者黑”表达了K近邻的算法思想. 一.算法描述: 1.1 KNN ...
- R语言︱机器学习模型评估方案(以随机森林算法为例)
笔者寄语:本文中大多内容来自<数据挖掘之道>,本文为读书笔记.在刚刚接触机器学习的时候,觉得在监督学习之后,做一个混淆矩阵就已经足够,但是完整的机器学习解决方案并不会如此草率.需要完整的评 ...
- python的random模块及加权随机算法的python实现
random是用于生成随机数的,我们可以利用它随机生成数字或者选择字符串. random.seed(x)改变随机数生成器的种子seed. 一般不必特别去设定seed,Python会自动选择seed. ...
随机推荐
- Docker下kafka学习三部曲之二:本地环境搭建
在上一章< Docker下kafka学习,三部曲之一:极速体验kafka>中我们快速体验了kafka的消息分发和订阅功能,但是对环境搭建的印象仅仅是执行了几个命令和脚本,本章我们通过实战来 ...
- NOIP2002 1.级数求和
这题目...... 题目:已知:Sn= 1+1/2+1/3+…+1/n.显然对于任意一个整数K,当n足够大的时候,Sn大于K.现给出一个整数K(1<=k<=15),要求计算出一个最小的n: ...
- JAVA学习笔记—review基本知识[反射与异常]
JAVA学习笔记—review基本知识[反射与异常] 1.异常: 1.1异常的分类: Java会将所有的异常封装成对象,其根本父类为Throwable. Throwable有两个子类:Error 和E ...
- 注解@Async解决异步调用问题
序言:Spring中@Async 根据Spring的文档说明,默认采用的是单线程的模式的.所以在Java应用中,绝大多数情况下都是通过同步的方式来实现交互处理的. 那么当多个任务的执行势必会相互影响. ...
- Linux 笔记 - 前三章 CentOS 简介、安装和远程连接
博客地址:http://www.moonxy.com 一.Unix 和 Linux 的区别 目前主流的 Unix 系统有三种,分别是 IBM-AIX.HP-UX.SUN-Solaris,它们分别运行在 ...
- Linux环境下进行分布式压测踩过的坑
背景:公司为了满足大并发的情况,需要测试组配合,就需要分布式压测,这里我把我踩过坑都记录下来: 环境:Linux + jmeter-v.5.1.1;使用3台2核4G的压力机: Q1: Server f ...
- Day 17 软件管理2之搭建本地仓库
1.列出yum源可用的软件仓库 [root@www.xuliangwei.com ~]# yum repolist [root@www.xuliangwei.com ~]# yum repolist ...
- 25 个 Linux 下最炫酷又强大的命令行神器,你用过其中哪几个呢?
本文首发于:微信公众号「运维之美」,公众号 ID:Hi-Linux. 「运维之美」是一个有情怀.有态度,专注于 Linux 运维相关技术文章分享的公众号.公众号致力于为广大运维工作者分享各类技术文章和 ...
- Exceptionless 5.0.0 本地Docker快速部署介绍
在之前我有专门写两篇文章介绍过Exceptionless这款开源日志项目的使用和部署,但是当时是基于4.1.0版本(2017年的release),时隔两年多Exceptionless也推出了5.0.0 ...
- Hadoop点滴-HDFS文件系统
1.HDFS中,目录作为元数据,保存在namenode中,而非datanode中 2.HDFS的文件权限模型与POSIX的权限模式非常相似,使用 r w x 3.HDFS的文件执行权限(X)可以 ...