易百教程人工智能python修正-人工智能数据准备-标记数据

我们已经知道，某种格式的数据对于机器学习算法是必需的。另一个重要的要求是，在将数据作为机器学习算法的输入发送之前，必须正确标记数据。例如，如果所说的分类，那么数据上会有很多标记。这些标记以文字，数字等形式存在。与sklearn中的机器学习相关的功能期望数据必须具有数字标记。因此，如果数据是其他形式，那么它必须转换为数字。这个将单词标签转换为数字形式的过程称为标记编码。

标记编码步骤

按照以下步骤在Python中对数据标记进行编码 -

第1步 - 导入有用的软件包

如果使用Python，那么这将是将数据转换为特定格式(即预处理)的第一步。它可以做到如下 -

import numpy as np

from sklearn import preprocessing

第2步 - 定义样本标签

导入包后，我们需要定义一些样本标签，以便可以创建和训练标签编码器。现在将定义以下样本标签 -

# Sample input labels

input_labels = ['red','black','red','green','black','yellow','white']

第3步 - 创建和训练标签编码器对象

在这一步中，我们需要创建标签编码器并对其进行训练。以下是Python代码的实现 -

# Creating the label encoder

encoder = preprocessing.LabelEncoder()

encoder.fit(input_labels)

以下是运行上面的Python代码后的输出 -

LabelEncoder()

第4步 - 通过编码随机排序列表来检查性能

此步骤可用于通过编码随机排序列表来检查性能。下面的Python代码可以做同样的事情 -

# encoding a set of labels

test_labels = ['green','red','black']

encoded_values = encoder.transform(test_labels)

print("\nLabels =", test_labels)

标签将如下打印 -

Labels = ['green', 'red', 'black']

现在，可以得到编码值列表，即将文字标签转换为数字，如下所示 -

print("Encoded values =", list(encoded_values))

输出结果打印如下 -

Encoded values = [1, 2, 0]

第5步 - 通过解码一组随机数来检查性能 -

通过对随机数字集进行解码，可以使用此步骤来检查性能。下面的Python代码也可以做同样的事情 -

现在，将被打印如下 -

Encoded values = [3, 0, 4, 1]

print("\nDecoded labels =", list(decoded_list))

Python

现在，解码值将被打印如下 -

Decoded labels = ['white', 'black', 'yellow', 'green']

标记与未标记数据

未标记的数据主要由自然或人造物体的样本组成，这些样本可以很容易从现实世界中获得。它们包括音频，视频，照片，新闻文章等。

另一方面，带标签的数据采用一组未标记的数据，并用一些有意义的标签或标签或类来扩充每片未标记的数据。例如，如果有照片，那么标签可以基于照片的内容放置，即它是男孩或女孩或动物或其他任何照片。标记数据需要人类专业知识或判断一个给定的未标记数据。

有很多情况下，无标签数据丰富且容易获得，但标注数据通常需要人工/专家进行注释。半监督学习尝试将标记数据和未标记数据组合起来，以建立更好的模型。

易百教程人工智能python修正-人工智能数据准备-标记数据的更多相关文章

易百教程人工智能python修正-人工智能无监督学习（聚类）
无监督机器学习算法没有任何监督者提供任何指导. 这就是为什么它们与真正的人工智能紧密结合的原因. 在无人监督的学习中,没有正确的答案,也没有监督者指导. 算法需要发现用于学习的有趣数据模式. 什么是聚 ...
易百教程人工智能python修正-人工智能监督学习（回归）
回归是最重要的统计和机器学习工具之一. 我们认为机器学习的旅程从回归开始并不是错的. 它可以被定义为使我们能够根据数据做出决定的参数化技术,或者换言之,允许通过学习输入和输出变量之间的关系来基于数据做 ...
易百教程人工智能python修正-人工智能监督学习(分类)
分类技术或模型试图从观测值中得出一些结论. 在分类问题中,我们有分类输出,如“黑色”或“白色”或“教学”和“非教学”. 在构建分类模型时,需要有包含数据点和相应标签的训练数据集. 例如,如果想检查图像 ...
易百教程人工智能python修正-人工智能数据准备-预处理数据
预处理数据在我们的日常生活中,需要处理大量数据,但这些数据是原始数据. 为了提供数据作为机器学习算法的输入,需要将其转换为有意义的数据. 这就是数据预处理进入图像的地方. 换言之,可以说在将数据提供 ...
易百教程人工智能python修正-人工智能NLTK性别发现器
在这个问题陈述中,将通过提供名字来训练分类器以找到性别(男性或女性). 我们需要使用启发式构造特征向量并训练分类器.这里使用scikit-learn软件包中的标签数据. 以下是构建性别查找器的Pyth ...
[oBIX包使用教程] 使用 Python 通过 oBIX 协议访问 Niagara 数据
oBIX 全称是 Open Building Information Exchange,它是基于 RESTful Web Service 的接口的标准,用于构建控制系统.oBIX是在专为楼宇自动化设计 ...
易百教程人工智能python补充-NLTK包
自然语言处理(NLP)是指使用诸如英语之类的自然语言与智能系统进行通信的AI方法. 如果您希望智能系统(如机器人)按照您的指示执行操作,希望听取基于对话的临床专家系统的决策时,则需要处理自然语言. N ...
MyBatis整合Spring MVC(易百教程）
MyBatis是ibatis的升级版,作为hibernate的老对手,它是一个可以自定义SQL.存储过程和高级映射的持久层框架.与Hibernate 的主要区别就是 Mybatis 是半自动化的,而 ...
Mybatis与Spring集成（易百教程）
整个Mybatis与Spring集成示例要完成的步骤如下: 1.示例功能描述 2.创建工程 3.数据库表结构及数据记录 4.实例对象 5.配置文件 6.测试执行,输出结果 1.示例功能描述在本示例中 ...

随机推荐

第06组 Beta冲刺（5/5）
队名:拾光组组长博客链接作业博客链接团队项目情况燃尽图(组内共享) 组长:宋奕过去两天完成了哪些任务继续维护后端代码准备beta版本的答辩 GitHub签入记录接下来的计划整理任务, ...
TensorFlow之卷积函数（conv2d）
卷积函数是卷积神经网络(CNN)非常核心和重要的函数,在搭建CNN时经常会用到,因此较为详细和深入的理解卷积函数具有十分重要的意义. tf.nn.conv2d(input, filter, strid ...
如何在CentOS上升级php5.4至5.6？
如何在CentOS上升级php5.4至5.6? 2017-01-10技术运维PHPApacheCentOSLinux 由于CentOS的默认的php安装源版本都是5.4以下的,如果你的项目对php版本 ...
查询dba_segmetns 异常慢，在11g 某个库里。
Encountering Slow Performance Reading *_SEGMENTS or *_TS_QUOTAS (文档 ID 1491748.1) 转到底部转到底部 In this D ...
流行-Manifold学习理解与应用
流行-Manifold[1] 流形,也就是 Manifold . 1. 比较好的形象理解流形学习的观点是认为,我们所能观察到的数据实际上是由一个低维流形映射到高维空间上的,即这些数据所在的空间是“ ...
[LeetCode] 122. Best Time to Buy and Sell Stock II 买卖股票的最佳时间 II
Say you have an array for which the ith element is the price of a given stock on day i. Design an al ...
LeetCode：复原IP地址【93】
LeetCode:复原IP地址[93] 题目描述给定一个只包含数字的字符串,复原它并返回所有可能的 IP 地址格式. 示例: 输入: "25525511135" 输出: [&qu ...
PCL
PCL(PointCloudLibrary)——是一个的模块化的现代C++模板库. 其基于以下第三方库:Boost.Eigen.FLANN.VTK.CUDA.OpenNI.Qhull,实现点云相关的获 ...
PHP实现的MongoDB数据增删改查
原文地址:https://www.mongodb.org.cn/drivers/2.html (该网站为mongoDB官方网站) php中使用mongodb你必须使用 mongodb 的 php驱 ...
CSP2019-终章：afo生活的开始
出分了...退役了...449...afo了... 曾经立志不少于500的我...竟然450都没上... Orz初中的神仙学弟考了596... 接下来,是一种生活的结束,也是另一种生活的开始... 我 ...

易百教程人工智能python修正-人工智能数据准备-标记数据

易百教程人工智能python修正-人工智能数据准备-标记数据的更多相关文章

随机推荐

热门专题