在很多机器学习任务中,特征并不总是连续值,而有可能是分类值。比如星期类型,有星期一、星期二、……、星期日,比如浏览器类型有["uses Firefox", "uses Chrome", "uses Safari", "uses Internet Explorer"]。
对于这些离散型特征,可以用几个数字表示特征值,如用1表示星期一,2表示星期二;也可以用one-hot编码,如用[1,0,0,0,0,0,0]表示星期一,[0,1,0,0,0,0,0]表示星期二。
那什么情况用one-hot编码,什么情况可以不用呢?事实上,之所以用one-hot编码,是为了更合理地计算欧式距离。比如,有一个离散型特征,代表工作类型,该离散型特征,共有三个取值,不使用one-hot编码,其表示分别是x_1 = (1), x_2 = (2), x_3 = (3)。两个工作之间的距离是,(x_1, x_2) = 1, d(x_2, x_3) = 1, d(x_1, x_3) = 2。那么x_1和x_3工作之间就越不相似吗?显然这样的表示,计算出来的特征的距离是不合理。那如果使用one-hot编码,则得到x_1 = (1, 0, 0), x_2 = (0, 1, 0), x_3 = (0, 0, 1),那么两个工作之间的距离就都是sqrt(2).即每两个工作之间的距离是一样的,显得更合理。
对于离散型特征,基于树的方法是不需要使用one-hot编码的,例如随机森林等。基于距离的模型,都是要使用one-hot编码,例如神经网络等。

以下做个实验说明:
一个数据如下,这是对星期类型采用[1,2,3,4,5,6,7]进行编码的方式:
@relation 'day'
@attribute day numeric
@attribute class numeric
@data
1,1100
2,1200
3,1300
4,1400
5,1800
6,2000
7,1800
1,1100
2,1200
3,1300
4,1400
5,1800
6,2000
7,1800
……

在weka中用随机森林RandomForest算法建模,用默认的参数,并进行10折交叉验证的结果如下:
Correlation coefficient                  1    
Mean absolute error                      0    
Root mean squared error                  0    
Relative absolute error                  0      %
Root relative squared error              0      %
Total Number of Instances              210
可以看出,误差为0。

在weka中用BP神经网络MultilayerPerceptron建模,用默认的参数,并进行10折交叉验证的结果如下:
Correlation coefficient                  0.9645
Mean absolute error                     71.9842
Root mean squared error                 85.2536
Relative absolute error                 23.7056 %
Root relative squared error             26.3015 %
Total Number of Instances              210
可以看出,误差比较高。

换one-hot编码的数据如下:
@relation 'day'
@attribute day1 numeric
@attribute day2 numeric
@attribute day3 numeric
@attribute day4 numeric
@attribute day5 numeric
@attribute day6 numeric
@attribute day7 numeric
@attribute class numeric
@data
1,0,0,0,0,0,0,1100
0,1,0,0,0,0,0,1200
0,0,1,0,0,0,0,1300
0,0,0,1,0,0,0,1400
0,0,0,0,1,0,0,1800
0,0,0,0,0,1,0,2000
0,0,0,0,0,0,1,1800
1,0,0,0,0,0,0,1100
0,1,0,0,0,0,0,1200
0,0,1,0,0,0,0,1300
0,0,0,1,0,0,0,1400
0,0,0,0,1,0,0,1800
0,0,0,0,0,1,0,2000
0,0,0,0,0,0,1,1800
……

在weka中用随机森林RandomForest算法建模,用默认的参数,并进行10折交叉验证的结果如下:
Correlation coefficient                  1    
Mean absolute error                      0    
Root mean squared error                  0    
Relative absolute error                  0      %
Root relative squared error              0      %
Total Number of Instances              210
可以看出,误差为0。

在weka中用BP神经网络MultilayerPerceptron建模,用默认的参数,并进行10折交叉验证的结果如下:
Correlation coefficient                  1    
Mean absolute error                      0    
Root mean squared error                  0    
Relative absolute error                  0      %
Root relative squared error              0      %
Total Number of Instances              210
可以看出,误差为0。

所以,在基于距离的模型中,对于离散型特征,应该采用one-hot编码方式,而且对于很多神经网络模型,能够很好地处理稀疏特征的情况。
————————————————
原文链接:https://blog.csdn.net/lanhaier0591/article/details/78702558

deep_learning_Function_One-host参数的更多相关文章

  1. 类似 go get –u 的命令行参数实现

    我们可能需要类似 go get –u -. 这样的方式来实现我们的应用,这时候我们无法简单地使用 flag.Parse 了,而是要用 FlagSet 了, 使用例子如下:   package main ...

  2. golang中设置Host Header的小Tips

    前言 笔者最近时间一直在学习和写Ruby和Go,尤其是Go,作为云计算时代的标准语言,写起来还是相当有感觉的,难过其会越来越火. 不过写的过程中,也遇到了一些小问题,本文就是分享关于go语言设置 HT ...

  3. Docker网络——单host网络

    前言 前面总结了Docker基础以及Docker存储相关知识,今天来总结一下Docker单主机网络的相关知识.毋庸置疑,网络绝对是任何系统的核心,他在Docker中也占有重要的作用.同样本文基于Clo ...

  4. Python命令行参数解析模块argparse

    当写一个Python脚本时经常会遇到不同参数不同功能的情况,如何做一个更好看的命令帮助信息以及对命令参数解析呢? 这就需要使用argparse模块 #!/usr/bin/env python # -* ...

  5. Python基础:10函数参数

    局部命名空间为各个参数值创建了一个名字,一旦函数开始执行,就能访问这个名字了. 在函数调用时,有非关键字参数和关键字参数之分,非关键字参数必须位于关键字参数之前. 在函数定义时,严格的顺序是:位置参数 ...

  6. cli框架 获取 命令行 参数

    package main import ( "fmt" "log" "os" "github.com/urfave/cli&quo ...

  7. Infrastructure 知识: DNS 命令: dig, host

    dig 基本用法: dig @server name type 或者用-t type来指定(更常见) dig @server -t type name 例子详解 # 最简单的使用 $ dig www. ...

  8. 【Golang】创建有配置参数的结构体时,可选参数应该怎么传?

    写在前面的话 Golang中构建结构体的时候,需要通过可选参数方式创建,我们怎么样设计一个灵活的API来初始化结构体呢. 让我们通过如下的代码片段,一步一步说明基于可选参数模式的灵活 API 怎么设计 ...

  9. FREEBSD手工配置网络

    在FreeBSD系统中,网络能力十分重要,对于一个标准的FreeBSD系统,至少要有一个网络界面以便与其他计算机通信.最常见的网络界面为以太网卡.此外FreeBSD也支持Token Ring和FDDI ...

  10. Android 中常见控件的介绍和使用

    1 TextView文本框 1.1 TextView类的结构 TextView 是用于显示字符串的组件,对于用户来说就是屏幕中一块用于显示文本的区域.TextView类的层次关系如下: java.la ...

随机推荐

  1. [.NET] 一步步打造一个简单的 MVC 电商网站 - BooksStore(一) (转)

    http://www.cnblogs.com/liqingwen/p/6640861.html 一步步打造一个简单的 MVC 电商网站 - BooksStore(一) 本系列的 GitHub地址:ht ...

  2. Java 泛型,你了解类型擦除吗?

    泛型,一个孤独的守门者. 大家可能会有疑问,我为什么叫做泛型是一个守门者.这其实是我个人的看法而已,我的意思是说泛型没有其看起来那么深不可测,它并不神秘与神奇.泛型是 Java 中一个很小巧的概念,但 ...

  3. dozer转化对象

    依赖: commons-beanutils-1.9.3.jar.commons-lang-2.6.jar.dozer-5.3.2.jar.jcl-over-slf4j-1.7.25.jar.slf4j ...

  4. vue新增属性是否会响应式更新?

    原文地址 在开发过程中,我们时常会遇到这样一种情况:当vue的data里边声明或者已经赋值过的对象或者数组(数组里边的值是对象)时,向对象中添加新的属性,如果更新此属性的值,是不会更新视图的. 根据官 ...

  5. python之selenium元素定位方法

    前提: 大家好,今天我们来学习一下selenium,今天主要讲解selenium定位元素的方法,希望对大家有所帮助! 内容: 一,selenium定位元素 selenium提供了8种方法: 1.id ...

  6. window 安装指定的node版本

    有时候不同的项目需要不同的node版本,window切换node版本命令很不管用,甚至需要卸载后重新装,同事分享了一下他的做法,很便利. 1.打开node官网 https://nodejs.org/e ...

  7. PTA一般问题汇总与解答

    在进行PTA作业完成的过程中,大家很积极在完成作业,然后在不懂的地方,有许多的同学也向助教们提出了问题,我们在这里将大家的问题进行了一下汇总然后逐一解答. 1输出中常遇到的问题. 这个图片里我将同学们 ...

  8. JSP与Servlet之间的交互,传值

    一.Servlet 首先要明白一点,servlet需要容器的支持才能够运行,如Tomcat.jetty 达到servlet的请求,需要ServletRequest对象和ServletResponse对 ...

  9. Log4j2日志配置详解(2)

    Log4j2日志配置系列之2 1.Configuration 在应用程序代码中插入日志请求需要相当多的计划和工作.观察显示,大约4%的代码用于日志记录.因此,即使是中等大小的应用程序也会在其代码中嵌入 ...

  10. [LGP4707] 重返现世

    世界是物质的,物质是运动的,运动是有规律的,规律是可以被认识的. 关于期望意义下min-max容斥,我们认为每个事件的时间来认识事件,max/min S表示集合S中所有时间最后/最前出现的事件,E(m ...