Relief 过滤式特征选择

给定训练集{(x1,y1),(x2,y2).....(xm,ym)} ，对每个示例xi，Relief在xi的同类样本中寻找其最近邻x_i,nh（猜中近邻），再从xi的异类样本中寻找其最近邻x_i,nm(猜错近邻)

代码如下：

#!/usr/bin/env python2

# -*- coding: utf-8 -*-

"""

Created on Wed Feb 28 20:16:09 2018

@author: jzc

"""

import numpy as np

import csv

from random import randrange

from sklearn import preprocessing

#抽样次数

m=8

def Compute_Distance_Discrete(diff_distance):

    # 使用欧几里得距离计算最近邻

    counter = np.power(diff_distance,2)

    counter = np.sum(counter)

    counter = np.sqrt(counter)

    return counter

def loadcsv(filename):

    """载入文件"""

    lines = csv.reader(open(filename,'r'))

    data = list(lines)

    for i in range(1,len(data)):

        data[i] = [float(x) for x in data[i]]

    result = np.array(data[1:])

    features = result[:,1:-1]

    labels = result[:,-1]

    return features,labels

def Relief(features,labels):

    #初始化

    (n_samples,n_features)=np.shape(features)

    distance = np.zeros((n_samples,n_samples))

    weights = np.zeros(n_features)

    nearHit= list()

    nearMiss= list()

    distance_sort=list()

    """寻找每个样本的距离"""

    for i in range(0,n_samples):

        for j in range(0,n_samples):

            diff_distance = features[i]-features[j]

            if i==j:

                distance[i,j]=99999

            else:

                distance[i,j] = Compute_Distance_Discrete(diff_distance)

    for i in range(0,m):

        one_sample = randrange(0,n_samples,1) #随机选择一个样本

        one_feature = features[one_sample]

        for index in range(n_samples):

            distance_sort.append([distance[one_sample,index],index,labels[index]])

        #从小到大排序

        distance_sort.sort(key = lambda x:x[0])

        """寻找样本的猜错近邻和猜中近邻"""

        for index in range(n_samples):

            if nearHit ==[] and distance_sort[index][2]==labels[one_sample]:

                nearHit = features[distance_sort[index][1]]

            elif nearMiss==[] and distance_sort[index][2]!=labels[one_sample]:

                nearMiss = features[distance_sort[index][1]]

            elif nearHit!=[] and nearMiss!=[]:

                break;

            else:

                continue;

        sum_nh = list()

        sum_nm =list()

        # 若属性j离散，Xaj==Xbj 则diff的值为0；否则为1

        for k in range(len(one_feature[:-2])):

            if one_feature[k] != nearHit[k]:

                sum_nh.append(1)

            else:

                sum_nh.append(0)

            if one_feature[k] != nearMiss[k]:

                sum_nm.append(1)

            else:

                sum_nm.append(0)

        #print sum_nh,sum_nm

        #print one_feature[-2:]-nearHit[-2:]

        """若为属性j为连续， diff(Xaj-Xbj)=|Xaj-Xbj| 并且Xaj,Xbj要归一化到[0,1]区间"""

        weights[-2:] = weights[-2:]-np.power(one_feature[-2:]-nearHit[-2:],2)

        +np.power(one_feature[-2:]-nearMiss[-2:],2)

        weights[:-2] = weights[:-2]-np.power(sum_nh,2)+np.power(sum_nm,2)

        #print weights/n_samples

    return weights/n_samples

filename = '/Users/jzc/DeepLearning(7.8-)/data/watermelon3_0.csv'

features,labels = loadcsv(filename)

#features[-2:] = preprocessing.normalize(features[-2:],norm='l2')

#print features

for x in range(1,10):

    result = Relief(features,labels)

    print result

#print features[0],labels[0]

Relief 过滤式特征选择的更多相关文章

特征选择与稀疏学习（Feature Selection and Sparse Learning）
本博客是针对周志华教授所著<机器学习>的"第11章特征选择与稀疏学习"部分内容的学习笔记. 在实际使用机器学习算法的过程中,往往在特征选择这一块是一个比较让人模棱两可 ...
Machine Learning-特征工程之特征选择
特征工程之特征选择目录简介 1 Filter(过滤式选择) 1.1 移除低方差特征(variance threshold) 1.2 信息增益(information gain) 1.3 单变量特征 ...
学习理论之正则化（Regularization）与模型选择
一.引言对于一个学习问题,可以假设很多不同的模型,我们要做的是根据某一标准选出最好的模型.例如,在多项式回归中,对于我们的假设模型,我们最要紧的是决定 k 到底取多少合适,能不能有一种方法可以自动选 ...
【机器学习PAI实践一】搭建心脏病预测案例
一.背景心脏病是人类健康的头号杀手.全世界1/3的人口死亡是因心脏病引起的,而我国,每年有几十万人死于心脏病. 所以,如果可以通过提取人体相关的体侧指标,通过数据挖掘的方式来分析不同特征对于心脏病的 ...
TensorFlow系列专题（二）：机器学习基础
欢迎大家关注我们的网站和系列教程:http://www.tensorflownews.com/ ,学习更多的机器学习.深度学习的知识! 目录: 数据预处理归一化标准化离散化二值化哑编码特征 ...
浅谈关于特征选择算法与Relief的实现
一. 背景 1) 问题在机器学习的实际应用中,特征数量可能较多,其中可能存在不相关的特征,特征之间也可能存在相关性,容易导致如下的后果: 1. 特征个数越多,分析特征.训练模型所需的时间就越 ...
特征选择：卡方检验、F 检验和互信息
特征选择是特征工程中的重要一环,其主要目的是从所有特征中选出相关特征 (relevant feature),或者说在不引起重要信息丢失的前提下去除掉无关特征 (irrelevant feature) ...
挑子学习笔记：特征选择——基于假设检验的Filter方法
转载请标明出处: http://www.cnblogs.com/tiaozistudy/p/hypothesis_testing_based_feature_selection.html Filter ...
用信息值进行特征选择(Information Value)
Posted by c cm on January 3, 2014 特征选择(feature selection)或者变量选择(variable selection)是在建模之前的重要一步.数据接口越 ...

随机推荐

设置table表格的单元格间距两种方式
table表格里设置单元格td之间的间距,通常用cellspacing设置单元格间距,有时候该属性可能无效,或需要用其他方式时,可用其他方式实现,例如在背景是白色背景的时候,设置单元格td的borde ...
有关dfs、bfs解决迷宫问题的个人见解
可以使用BFS或者DFS方法解决的迷宫问题! 题目如下: kotori在一个n*m迷宫里,迷宫的最外层被岩浆淹没,无法涉足,迷宫内有k个出口.kotori只能上下左右四个方向移动.她想知道有多少出口是 ...
[Linux] 树莓派 4B 安装 Ubuntu 19.10 (Eoan Ermine) IOT 版
硬件:Raspberry Pi 4B系统:Ubuntu 19.10 (Eoan Ermine) for IOT官网:https://ubuntu.com/download/iot/raspberry- ...
10步成为一个优秀的Java开发！
1.拥有坚实的基础并理解面向对象原则 Java开发人员必须深刻理解面向对象编程.如果没有面向对象编程的坚实基础,就无法感受到像Java这样的面向对象编程语言的美感. 如果你不太了解现象对象编程是什么, ...
status 和 typedef
DRF框架（三）——media资源路径设置、多表设计复习及补充、序列化组件(ModelSerializer)操作多表（序列化与反序列化）、多表序列化与反序列化整合（重点）
media资源路径设置 (设置好后把图片放在这个文件夹中,通过链接能访问到图片) 1.先在根目录设置一个media文件夹 2.配置settings.py,加上下面的 MEDIA_URL = '/me ...
Linux查看CPU信息计算CPU核数量
1. 物理CPU的个数: cat /proc/cpuinfo | grep "physical id" | sort | uniq | wc -l 2. 每个物理CPU的核心数量: ...
挂载一个NFS共享
在 system2 上挂载一个来自 system1.group8.example.com 的NFS共享,并符合下列要求: 1./public 挂载在下面的目录上 /mnt/nfsmount 2./pr ...
使用StringBuilder构建字符串
使用StringBuilder构建字符串确实可以提高效率,比“+”要高效不少.但使用时也有一些坑: 首先,我们指定一个StringBuilder,并设置其长度. StringBuilder build ...
mongoDB 分组并对分组结果筛选类似于SQL中的(group by xxx having ) 附带Java代码
今天需要做一个筛选程序,因为数据放在mongodb中,没写过分组的查询语句,查了一些资料,终于写出来了,分享给各位小伙伴需求是查询学员在2019-07-29之后未同步的数据(同一个学员需要2条 ...

Relief 过滤式特征选择

Relief 过滤式特征选择的更多相关文章

随机推荐

热门专题