机器学习策略篇:详解处理数据不匹配问题(Addressing data mismatch)
处理数据不匹配问题
如果您的训练集来自和开发测试集不同的分布,如果错误分析显示有一个数据不匹配的问题该怎么办?这个问题没有完全系统的解决方案,但可以看看一些可以尝试的事情。如果发现有严重的数据不匹配问题,通常会亲自做错误分析,尝试了解训练集和开发测试集的具体差异。技术上,为了避免对测试集过拟合,要做错误分析,应该人工去看开发集而不是测试集。

但作为一个具体的例子,如果正在开发一个语音激活的后视镜应用,可能要看看……想如果是语音的话,可能要听一下来自开发集的样本,尝试弄清楚开发集和训练集到底有什么不同。所以,比如说可能会发现很多开发集样本噪音很多,有很多汽车噪音,这是的开发集和训练集差异之一。也许还会发现其他错误,比如在的车子里的语言激活后视镜,发现它可能经常识别错误街道号码,因为那里有很多导航请求都有街道地址,所以得到正确的街道号码真的很重要。当了解开发集误差的性质时,就知道,开发集有可能跟训练集不同或者更难识别,那么可以尝试把训练数据变得更像开发集一点,或者,也可以收集更多类似的开发集和测试集的数据。所以,比如说,如果发现车辆背景噪音是主要的错误来源,那么可以模拟车辆噪声数据。或者发现很难识别街道号码,也许可以有意识地收集更多人们说数字的音频数据,加到的训练集里。
现在知道这篇博客只给出了粗略的指南,列出一些可以做的尝试,这不是一个系统化的过程,想,这不能保证一定能取得进展。但发现这种人工见解,可以一起尝试收集更多和真正重要的场合相似的数据,这通常有助于解决很多问题。所以,如果的目标是让训练数据更接近的开发集,那么可以怎么做呢?

可以利用的其中一种技术是人工合成数据(artificial data synthesis),讨论一下。在解决汽车噪音问题的场合,所以要建立语音识别系统。也许实际上没那么多实际在汽车背景噪音下录得的音频,或者在高速公路背景噪音下录得的音频。但发现,可以合成。所以假设录制了大量清晰的音频,不带车辆背景噪音的音频,“The quick brown fox jumps over the lazy dog”(音频播放),所以,这可能是的训练集里的一段音频,顺便说一下,这个句子在AI测试中经常使用,因为这个短句包含了从a到z所有字母,所以会经常见到这个句子。但是,有了这个“the quick brown fox jumps over the lazy dog”这段录音之后,也可以收集一段这样的汽车噪音,(播放汽车噪音音频)这就是汽车内部的背景噪音,如果一言不发开车的话,就是这种声音。如果把两个音频片段放到一起,就可以合成出"the quick brown fox jumps over the lazy dog"(带有汽车噪声),在汽车背景噪音中的效果,听起来像这样,所以这是一个相对简单的音频合成例子。在实践中,可能会合成其他音频效果,比如混响,就是声音从汽车内壁上反弹叠加的效果。
但是通过人工数据合成,可以快速制造更多的训练数据,就像真的在车里录的那样,那就不需要花时间实际出去收集数据,比如说在实际行驶中的车子,录下上万小时的音频。所以,如果错误分析显示应该尝试让的数据听起来更像在车里录的,那么人工合成那种音频,然后喂给的机器学习算法,这样做是合理的。
现在要提醒一下,人工数据合成有一个潜在问题,比如说,在安静的背景里录得10,000小时音频数据,然后,比如说,只录了一小时车辆背景噪音,那么,可以这么做,将这1小时汽车噪音回放10,000次,并叠加到在安静的背景下录得的10,000小时数据。如果这么做了,人听起来这个音频没什么问题。但是有一个风险,有可能的学习算法对这1小时汽车噪音过拟合。特别是,如果这组汽车里录的音频可能是可以想象的所有汽车噪音背景的集合,如果只录了一小时汽车噪音,那可能只模拟了全部数据空间的一小部分,可能只从汽车噪音的很小的子集来合成数据。

而对于人耳来说,这些音频听起来没什么问题,因为一小时的车辆噪音对人耳来说,听起来和其他任意一小时车辆噪音是一样的。但有可能从这整个空间很小的一个子集出发合成数据,神经网络最后可能对这一小时汽车噪音过拟合。不知道以较低成本收集10,000小时的汽车噪音是否可行,这样就不用一遍又一遍地回放那1小时汽车噪音,就有10,000个小时永不重复的汽车噪音来叠加到10,000小时安静背景下录得的永不重复的语音录音。这是可以做的,但不保证能做。但是使用10,000小时永不重复的汽车噪音,而不是1小时重复学习,算法有可能取得更好的性能。人工数据合成的挑战在于,人耳的话,人耳是无法分辨这10,000个小时听起来和那1小时没什么区别,所以最后可能会制造出这个原始数据很少的,在一个小得多的空间子集合成的训练数据,但自己没意识到。

这里有人工合成数据的另一个例子,假设在研发无人驾驶汽车,可能希望检测出这样的车,然后用这样的框包住它。很多人都讨论过的一个思路是,为什么不用计算机合成图像来模拟成千上万的车辆呢?事实上,这里有几张车辆照片(下图后两张图片),其实是用计算机合成的,想这个合成是相当逼真的,想通过这样合成图片,可以训练出一个相当不错的计算机视觉系统来检测车子。

不幸的是,比如这是所有车的集合,如果只合成这些车中很小的子集,对于人眼来说也许这样合成图像没什么问题,但的学习算法可能会对合成的这一个小子集过拟合。特别是很多人都独立提出了一个想法,一旦找到一个电脑游戏,里面车辆渲染的画面很逼真,那么就可以截图,得到数量巨大的汽车图片数据集。事实证明,如果仔细观察一个视频游戏,如果这个游戏只有20辆独立的车,那么这游戏看起来还行。因为是在游戏里开车,只看到这20辆车,这个模拟看起来相当逼真。但现实世界里车辆的设计可不只20种,如果用着20量独特的车合成的照片去训练系统,那么的神经网络很可能对这20辆车过拟合,但人类很难分辨出来。即使这些图像看起来很逼真,可能真的只用了所有可能出现的车辆的很小的子集。
所以,总而言之,如果认为存在数据不匹配问题,建议做错误分析,或者看看训练集,或者看看开发集,试图找出,试图了解这两个数据分布到底有什么不同,然后看看是否有办法收集更多看起来像开发集的数据作训练。
谈到其中一种办法是人工数据合成,人工数据合成确实有效。在语音识别中。已经看到人工数据合成显著提升了已经非常好的语音识别系统的表现,所以这是可行的。但当使用人工数据合成时,一定要谨慎,要记住有可能从所有可能性的空间只选了很小一部分去模拟数据。
机器学习策略篇:详解处理数据不匹配问题(Addressing data mismatch)的更多相关文章
- 走向DBA[MSSQL篇] 详解游标
原文:走向DBA[MSSQL篇] 详解游标 前篇回顾:上一篇虫子介绍了一些不常用的数据过滤方式,本篇详细介绍下游标. 概念 简单点说游标的作用就是存储一个结果集,并根据语法将这个结果集的数据逐条处理. ...
- Linux DTS(Device Tree Source)设备树详解之二(dts匹配及发挥作用的流程篇)【转】
转自:https://blog.csdn.net/radianceblau/article/details/74722395 版权声明:本文为博主原创文章,未经博主允许不得转载.如本文对您有帮助,欢迎 ...
- Scala进阶之路-Scala函数篇详解
Scala进阶之路-Scala函数篇详解 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任. 一.传值调用和传名调用 /* @author :yinzhengjie Blog:http: ...
- PHP函数篇详解十进制、二进制、八进制和十六进制转换函数说明
PHP函数篇详解十进制.二进制.八进制和十六进制转换函数说明 作者: 字体:[增加 减小] 类型:转载 中文字符编码研究系列第一期,PHP函数篇详解十进制.二进制.八进制和十六进制互相转换函数说明 ...
- 十图详解tensorflow数据读取机制(附代码)转知乎
十图详解tensorflow数据读取机制(附代码) - 何之源的文章 - 知乎 https://zhuanlan.zhihu.com/p/27238630
- 百度大脑UNIT3.0详解之数据生产工具DataKit
在智能对话项目搭建的过程中,高效筛选.处理对话日志并将其转化为新的训练数据,是对话系统效果持续提升的重要环节,也是当前开发者面临的难题之一.为此百度大脑UNIT推出学习反馈闭环机制,提供数据获取.辅助 ...
- 不看就亏了:DELL EqualLogic PS6100详解及数据恢办法
DELL EqualLogic PS6100采用虚拟ISCSI SAN阵列,为远程或分支办公室.部门和中小企业存储部署带来企业级功能.智能化.自动化和可靠性,支持VMware.Solaris.Linu ...
- 详解Tensorflow数据读取有三种方式(next_batch)
转自:https://blog.csdn.net/lujiandong1/article/details/53376802 Tensorflow数据读取有三种方式: Preloaded data: 预 ...
- Canal:同步mysql增量数据工具,一篇详解核心知识点
老刘是一名即将找工作的研二学生,写博客一方面是总结大数据开发的知识点,一方面是希望能够帮助伙伴让自学从此不求人.由于老刘是自学大数据开发,博客中肯定会存在一些不足,还希望大家能够批评指正,让我们一起进 ...
- 详解APM数据采样与端到端
高驰涛 云智慧首席架构师 据云智慧统计,APM从客户端采集的性能数据可能占到业务数据的50%,而企业要做到从Request到Response整个链路中涉及到的所有数据的准确采集,并进行有效串接,进而实 ...
随机推荐
- 初识上位机(下):C#读写PLC数据块数据
大家好,我是Edison. 作为一个工业自动化领域的程序员,不懂点PLC和上位机,貌似有点说不过去.这里我用两篇小文带你快速进入上位机开发领域.后续,我会考虑再出一个系列文章一起玩工控上位机. 上一篇 ...
- MySQL所有的主从同步架构搭建方式
目录 一.前言 二.关于MySQL主从同步 三.部署规划 3.1 服务器规划 3.2 数据库目录规划 四.准备工具 五.四台机器上使用通用二进制包安装MySQL(以node7为例) 5.1 上传MyS ...
- Redis内存容量评估
业务侧申请redis服务器资源时,需要事先对redis容量做一个大致评估,之前的容量评估公式基本只是简单的 (key长度 value长度)* key个数,误差较大,后期经常需要进行缩扩容调整,因此提出 ...
- Django----模型----数据库的基本操作
1.添加记录 方式一:save() 方式二(推荐):create() 2.查询记录 (1)all() 查询所有记录,返回queryset对象. stu_list = Student.objects.a ...
- golang beego 使用supervisor 部署后台进程管理. 静态文件找不到的解决办法.
directory=/root/go/src/you_self_dir 请在客户端配置文件*.ini中加入一行命令, 等于号后面就是自己的项目目录,这时就能找到项目文件了.
- NumPy 均匀分布模拟及 Seaborn 可视化教程
均匀分布 简介 均匀分布是一种连续概率分布,表示在指定范围内的所有事件具有相等的发生概率.它常用于模拟随机事件,例如生成随机数或选择随机样本. 参数 均匀分布用两个参数来定义: a:下限,表示分布的最 ...
- Linux和Windows时间不一致问题
问题描述 装过双系统或者虚拟机装Linux的人都知道,Linux的时间和Windows往往是不同步的,在编写跨平台程序的时候特别是对时间敏感的代码就带来很大的困扰 解决办法 这个问题可以在Linux下 ...
- 【Effective C++】设计与声明——reference篇
以pass-by-reference-to-const替换pass-by-value 缺省情况下C++以by value方式传递对象至(或来自)函数.除非你另外指定,否则函数参数都是以实际实参的复件( ...
- nodejs koa框架下载和导入excel
ac.js const service = require("../service/model.service"); const urlencode = require(" ...
- Easysearch 压缩功能的显著提升:从 8.7GB 到 1.4GB
引言 在海量数据的存储和处理中,索引膨胀率是一个不可忽视的关键指标.它直接影响了存储成本和查询性能.近期,Easysearch 在这方面取得了显著的进展,其压缩功能的效果远超过了之前的版本.本文将详细 ...