Relief 过滤式特征选择

给定训练集{(x1,y1),(x2,y2).....(xm,ym)} ，对每个示例xi，Relief在xi的同类样本中寻找其最近邻x_i,nh（猜中近邻），再从xi的异类样本中寻找其最近邻x_i,nm(猜错近邻)

代码如下：

#!/usr/bin/env python2

# -*- coding: utf-8 -*-

"""

Created on Wed Feb 28 20:16:09 2018

@author: jzc

"""

import numpy as np

import csv

from random import randrange

from sklearn import preprocessing

#抽样次数

m=8

def Compute_Distance_Discrete(diff_distance):

    # 使用欧几里得距离计算最近邻

    counter = np.power(diff_distance,2)

    counter = np.sum(counter)

    counter = np.sqrt(counter)

    return counter

def loadcsv(filename):

    """载入文件"""

    lines = csv.reader(open(filename,'r'))

    data = list(lines)

    for i in range(1,len(data)):

        data[i] = [float(x) for x in data[i]]

    result = np.array(data[1:])

    features = result[:,1:-1]

    labels = result[:,-1]

    return features,labels

def Relief(features,labels):

    #初始化

    (n_samples,n_features)=np.shape(features)

    distance = np.zeros((n_samples,n_samples))

    weights = np.zeros(n_features)

    nearHit= list()

    nearMiss= list()

    distance_sort=list()

    """寻找每个样本的距离"""

    for i in range(0,n_samples):

        for j in range(0,n_samples):

            diff_distance = features[i]-features[j]

            if i==j:

                distance[i,j]=99999

            else:

                distance[i,j] = Compute_Distance_Discrete(diff_distance)

    for i in range(0,m):

        one_sample = randrange(0,n_samples,1) #随机选择一个样本

        one_feature = features[one_sample]

        for index in range(n_samples):

            distance_sort.append([distance[one_sample,index],index,labels[index]])

        #从小到大排序

        distance_sort.sort(key = lambda x:x[0])

        """寻找样本的猜错近邻和猜中近邻"""

        for index in range(n_samples):

            if nearHit ==[] and distance_sort[index][2]==labels[one_sample]:

                nearHit = features[distance_sort[index][1]]

            elif nearMiss==[] and distance_sort[index][2]!=labels[one_sample]:

                nearMiss = features[distance_sort[index][1]]

            elif nearHit!=[] and nearMiss!=[]:

                break;

            else:

                continue;

        sum_nh = list()

        sum_nm =list()

        # 若属性j离散，Xaj==Xbj 则diff的值为0；否则为1

        for k in range(len(one_feature[:-2])):

            if one_feature[k] != nearHit[k]:

                sum_nh.append(1)

            else:

                sum_nh.append(0)

            if one_feature[k] != nearMiss[k]:

                sum_nm.append(1)

            else:

                sum_nm.append(0)

        #print sum_nh,sum_nm

        #print one_feature[-2:]-nearHit[-2:]

        """若为属性j为连续， diff(Xaj-Xbj)=|Xaj-Xbj| 并且Xaj,Xbj要归一化到[0,1]区间"""

        weights[-2:] = weights[-2:]-np.power(one_feature[-2:]-nearHit[-2:],2)

        +np.power(one_feature[-2:]-nearMiss[-2:],2)

        weights[:-2] = weights[:-2]-np.power(sum_nh,2)+np.power(sum_nm,2)

        #print weights/n_samples

    return weights/n_samples

filename = '/Users/jzc/DeepLearning(7.8-)/data/watermelon3_0.csv'

features,labels = loadcsv(filename)

#features[-2:] = preprocessing.normalize(features[-2:],norm='l2')

#print features

for x in range(1,10):

    result = Relief(features,labels)

    print result

#print features[0],labels[0]

Relief 过滤式特征选择的更多相关文章

特征选择与稀疏学习（Feature Selection and Sparse Learning）
本博客是针对周志华教授所著<机器学习>的"第11章特征选择与稀疏学习"部分内容的学习笔记. 在实际使用机器学习算法的过程中,往往在特征选择这一块是一个比较让人模棱两可 ...
Machine Learning-特征工程之特征选择
特征工程之特征选择目录简介 1 Filter(过滤式选择) 1.1 移除低方差特征(variance threshold) 1.2 信息增益(information gain) 1.3 单变量特征 ...
学习理论之正则化（Regularization）与模型选择
一.引言对于一个学习问题,可以假设很多不同的模型,我们要做的是根据某一标准选出最好的模型.例如,在多项式回归中,对于我们的假设模型,我们最要紧的是决定 k 到底取多少合适,能不能有一种方法可以自动选 ...
【机器学习PAI实践一】搭建心脏病预测案例
一.背景心脏病是人类健康的头号杀手.全世界1/3的人口死亡是因心脏病引起的,而我国,每年有几十万人死于心脏病. 所以,如果可以通过提取人体相关的体侧指标,通过数据挖掘的方式来分析不同特征对于心脏病的 ...
TensorFlow系列专题（二）：机器学习基础
欢迎大家关注我们的网站和系列教程:http://www.tensorflownews.com/ ,学习更多的机器学习.深度学习的知识! 目录: 数据预处理归一化标准化离散化二值化哑编码特征 ...
浅谈关于特征选择算法与Relief的实现
一. 背景 1) 问题在机器学习的实际应用中,特征数量可能较多,其中可能存在不相关的特征,特征之间也可能存在相关性,容易导致如下的后果: 1. 特征个数越多,分析特征.训练模型所需的时间就越 ...
特征选择：卡方检验、F 检验和互信息
特征选择是特征工程中的重要一环,其主要目的是从所有特征中选出相关特征 (relevant feature),或者说在不引起重要信息丢失的前提下去除掉无关特征 (irrelevant feature) ...
挑子学习笔记：特征选择——基于假设检验的Filter方法
转载请标明出处: http://www.cnblogs.com/tiaozistudy/p/hypothesis_testing_based_feature_selection.html Filter ...
用信息值进行特征选择(Information Value)
Posted by c cm on January 3, 2014 特征选择(feature selection)或者变量选择(variable selection)是在建模之前的重要一步.数据接口越 ...

随机推荐

百度SMS发送短信C#
/// <summary> /// 百度接口签名帮助类 /// </summary> public class BaiduApiHelper { #region 构造函数 // ...
asp.net core使用水晶报表问题
背景最近项目上遇到一个需求,要后台通过定时任务把水晶报表生成pdf文件,然后邮件发送给相关人. 技术实现思路选用ASP.NET Core框架(基于2.2版本),通过IHostedS ...
Nginx+Keepalived实现web服务器高可用
1.Nginx 业务背景现公司需求快速搭建web服务器,对外提供给用户web服务. 需求拆分需要基于http协议的软件,搭建服务实现介绍常见用法: 1) web服务器软件 httpd http ...
PHP设计模式 - 中介者模式
中介者模式用于开发一个对象,这个对象能够在类似对象相互之间不直接相互的情况下传送或者调解对这些对象的集合的修改. 一般处理具有类似属性,需要保持同步的非耦合对象时,最佳的做法就是中介者模式.PHP中不 ...
Redis解决“重试次数”场景的实现思路
很多地方都要用到重试次数限制,不然就会被暴力破解.比如登录密码. 下面不是完整代码,只是伪代码,提供一个思路. 第一种(先声明,这样写有个bug) import java.text.MessageFo ...
以Unicode(UTF-16 LE)编码保存文本
1. 以二进制方式打开文件,写入BOM头 FILE* pFile = nullptr; _wfopen_s(&pFile, szLogFilePath, L"wb"); / ...
window 关机
schtasks /create /tn "关机" /tr "shutdown /s" /sc once /st 20:30
Android调试桥 adb安装详解
Android调试桥(adb) 一.简介 Android 调试桥 (adb) 是一种功能多样的命令行工具,可让您与设备进行通信.adb 命令便于执行各种设备操作(例如安装和调试应用),并提供对 Uni ...
文件和异常练习2——python编程从入门到实践
10-6 加法运算:提示用户输入提供数值输入,常出现的一个问题是,用户提供的是文本而不是数字.这种情况下,当你尝试将输入转换为整数时,将引发TypeError异常.编写一个程序,提示用户输入两个数字 ...
虚拟机CentOS创建/使用快照
快照 1.什么是快照说的直白一点,就是创建一个备份.当执行了不可逆的错误操作后,可以通过快照用来恢复系统 2.创建快照的三种模式挂载状态下创建快照开机状态下创建快照关机状态下创建快照 3.如何 ...

Relief 过滤式特征选择

Relief 过滤式特征选择的更多相关文章

随机推荐

热门专题