机器学习Label Encoder和One Hot Encoder
标签编码(Label Encoder)

在本例中第一列是Country, 如果我们要运行任何模型, 数据中不能包含文本
所以要对文本进行处理
接下来,我们从sklearn库中导入LabelEncoder类
from sklearn.preprocessing import LabelEncoder
labelencoder = LableEncoder()
X[:, 0] = labelencoder.fit_transform(X[:, 0])
假设数据在X变量中,运行代码后,检查X的值,发现国家已经被1, 2, 3取代

Label Encoder的问题:
我们将一组国家名称编码成数据,实际上是分类数据,数据与数据之间无任何关系。
而标签编码数据有顺序关系,0<1<2
因此,我们可以采用One Hot Encoder
独热编码(One Hot Encoder)
采用One Hot Encoder编码后,
数字将被0和1替换,
运行如下代码:
from sklearn.preprocessing import OneHotEncoder
onehotencoder = OneHotEncoder(categorical_feature=0)
x = onehotencoder.fit_transform(x).toarray

如图所见,我们新增三个新列,每个国家那一列代表1,其它两项代表0. 例如第一列值为France, 具有France的列将变为1,其它两列为0;类似的,对于第一个列值为
Germany列, 'Germany'列将有'1', 其它两列将为0
References:
机器学习中的Label Encoder和One Hot Encoder [Accessed at 11 Septermber 2019]
https://kknews.cc/code/kba3lvv.html
机器学习Label Encoder和One Hot Encoder的更多相关文章
- logback:logback和slf4j中的:appender、logger、encoder、layout
		
(1)appender 1.appender标签是logback配置文件中重要的组件之一.在logback配置文件中使用appender标签进行定义.可 以包含0个或多个appender标签. 2.a ...
 - 从Encoder到Decoder实现Seq2Seq模型
		
https://zhuanlan.zhihu.com/p/27608348 更新:感谢@Gang He指出的代码错误.get_batches函数中第15行与第19行,代码已经重新修改,GitHub已更 ...
 - Kafka:ZK+Kafka+Spark Streaming集群环境搭建(二十四)Structured Streaming:Encoder
		
一般情况下我们在使用Dataset<Row>进行groupByKey时,你会发现这个方法最后一个参数需要一个encoder,那么这些encoder如何定义呢? 一般数据类型 static ...
 - spring cloud feign 上传文件报not a type supported by this encoder解决方案
		
上传文件调用外部服务报错: not a type supported by this encoder 查看SpringFormEncoder类的源码: public class SpringFormE ...
 - logback -- 配置详解 -- 三 -- <encoder>
		
附: logback.xml实例 logback -- 配置详解 -- 一 -- <configuration>及子节点 logback -- 配置详解 -- 二 -- <appen ...
 - ffmpeg代码实现自定义encoder
		
1.概述 本文主要讲述如何用ffmpeg代码实现自己的encoder. 2.代码 /* *本程序主要实现一个自己的encoder并加入到encoder链中去,供api调用 *作者:缪国凯(MK) *8 ...
 - java日志框架系列(6):logback框架encoder详解
		
1.Encoder 1.encoder功能 Encoder 负责两件事,一是把事件转换为字节数组,二是把字节数组写入输出流. 注意:在logback 0.9.19 版之前没有 encoder. 在之前 ...
 - AC3 encoder flow
		
AC3 encoder flow 如下: 1.input PCM PCM在进入encoder前会使用high pass filter来移除信号的DC部分来达到更有效的编码. 2.Transient d ...
 - Python机器学习笔记:利用Keras进行分类预测
		
Keras是一个用于深度学习的Python库,它包含高效的数值库Theano和TensorFlow. 本文的目的是学习如何从csv中加载数据并使其可供Keras使用,如何用神经网络建立多类分类的数据进 ...
 
随机推荐
- Java并发编程实战笔记—— 并发编程3
			
1.实例封闭 class personset{ private final Set<Person> myset = new HashSet<Person>(); public ...
 - HashMap这些问题你知道吗?
			
HashMap是Java面试中的常考点之一,而且其<Key,Value>结构也是开发中常常用到的结构之一.或许你使用过HashMap,但是你知道下面这些问题吗? HashMap的底层结构是 ...
 - 5.MySQL数据库操作步骤
			
第一步:登录到MySQL服务器 第二步:选择当前要操作的数据库 第三步:设置请求和返回数据的字符集 第四步:执行SQL语句 l 增加记录:INSERT INTO news(title,content) ...
 - Elasticsearch由浅入深(一)
			
什么是Elasticsearch 什么是搜索 百度:我们比如说想找寻任何的信息的时候,就会上百度去搜索一下,比如说找一部自己喜欢的电影,或者说找一本喜欢的书,或者找一条感兴趣的新闻(提到搜索的第一印象 ...
 - tomcat9 web manager的配置使用
			
本地链接tomcat web manager服务时,只需修改tomcat/conf/tomcat-user.xml文件,如图所示: 远程链接tomcat web manager服务时,需要在tomca ...
 - React Native 生命周期及相关方法小技巧使用
			
ES6 生命周期图解 很多文章里的图解,第一步是 getDefaultProps , 第二步是 getinitialstate ,这是 ES5 的写法; 实际上ES6 中 getinitialstat ...
 - (四十五)c#Winform自定义控件-水波图表
			
前提 入行已经7,8年了,一直想做一套漂亮点的自定义控件,于是就有了本系列文章. GitHub:https://github.com/kwwwvagaa/NetWinformControl 码云:ht ...
 - DNS域名解析服务及其配置
			
一.背景 到 20 世纪 70 年代末,ARPAnet 是一个拥有几百台主机的很小很友好的网络.仅需要一个名为 HOSTS.TXT 的文件就能容纳所有需要了解的主机信息:它包含了所有连接到 ARPAn ...
 - HOWTO: Amira/Avizo中如何设置数据尺度单位
			
很多朋友是数据量化完成后,问统计表中的数据尺度单位,这种情况恐怕需要从头再处理一次,所以对于Amira/Avizo的新用户来说,在准备进行量化分析之前就应该设置好尺度单位,设置步骤如下: 1. 在A ...
 - mybatis 源码分析(五)Interceptor 详解
			
本篇博客将主要讲解 mybatis 插件的主要流程,其中主要包括动态代理和责任链的使用: 一.mybatis 拦截器主体结构 在编写 mybatis 插件的时候,首先要实现 Interceptor 接 ...