根据艾瑞咨询发布的行业白皮书显示,2018年中国人工智能基础数据服务市场规模为25.86亿元,预计2025年市场规模将突破113亿元,行业年复合增长率达到了23.5%。​

作为人工智能产业的基石,数据标注行业正在从幕后走向前台,未来前景无限广阔。

然而,正如黎明前是一片无尽的黑暗一样,数据标注行业在蓬勃发展的背后也面临着诸多困局,这些困局已成为阻碍行业发展最大的绊脚石。

1. 人力成本突出

数据标注虽然披着人工智能的“外衣”,但是本质上仍然属于劳动密集型产业。

目前,国内从事数据标注行业的人群已达上千万,这其中90%的从业人员为数据标注员,这些数据标注员分散在大大小小的标注团队内。

以一个20人全职的小标注团队为例,平均每天每个人的人力成本大约在100-200元,每个月仅仅在人力成本上的消耗就达到了6万-12万,而一个周期在半个月以上的标注项目可能总合同金额不过几万元而已,这样的结果就是很多标注团队营利甚微或是压根就无法营利。

数据标注团队

事实上,很多标注团队的管理人员已经意识到人力成本对于团队发展的威胁,但是却很少有人选择以裁员的方式来减少此类成本,甚至很多团队顶着亏损的风险不断加人,原因无他,作为劳动密集型产业的数据标注行业,有足够的人力才能保证吃得下大项目,越是裁员越是无法接到高利润的大项目,拾人牙慧捡一些小资源,团队最终面临的可能就是解散的局面。

2. 标注效率低下

在人力成本无法大规模减轻的局面下,摆在数据标注团队面前最可行的方式就是提高标注效率。

通过招聘熟练度较高的数据标注员,或是使用高效率的标注工具可以做到在短时间内有效提升标注效率,但是到了真正实施的阶段,很多人却发现并不是如此简单。

一方面,熟练度较高的高素质数据标注员在行业内仍是稀缺状态,尤其是随着AI公司对于标注数据的场景化需求越来越高,这种缺口将越来越大。举个简单的例子,在语音标注领域,目前有很多英文标注项目,但是熟练掌握英语的数据标注员却稀少。

另一方面,行业内缺乏一款高效率的数据标注工具。目前很多标注团队使用的是开源标注工具,此类工具虽然能够满足基本的标注需求,但是在效率、准确度上已经远远满足不了当下AI公司的需求。

3. 准确率难以满足AI公司需求

人工智能行业内有一个简单但很重要的共识:数据集质量的高低直接决定最终模型质量的好坏。

机器学习依赖海量标注数据的投喂,这些数据质量的高低将对AI最终能否顺利落地产生关键性影响。

目前很多AI企业都意识到了这点,并在标注数据质量上提出了新的要求。举个例子,以往标注数据的准确率达到了95%即可满足AI企业的需求,但是目前就需求达到99%,甚至是99.99%。

然而,目前相当多的标注企业无法满足这样的需求,原因正如上面所说,一方面数据标注员能力参差不齐,另一方面标注工具质量低下。

4. 数据安全性存疑

数据标注行业既然与“数据”有关,那么安全性一定是很多企业关注的重点。

在安防领域,因为涉及到需要采集标注很多人脸等私密数据,因此确保数据的安全性成为了很多项目方的硬性需求。

数据安全性是很多项目方的硬性需求

从数据的采集、数据的标注,再到数据的保存,每一个环节都必须保证数据不被泄露、不被窃取,这对于很多团队来说都是无法做到的事情。

一方面,很多团队没有自己独立研发的标注平台,仍使用开源工具或者是在开源工具的基础上略作修改,使用这种开放的平台如何保证数据的安全性?

另外,很多企业在标注与储存数据的过程中,出于成本的因素使用的仍然是公有服务器,这对于许多安防领域的企业来说,很明显是无法达标的。

5. 欠缺场景化标注能力

随着人工智能技术开始大范围落地应用,AI公司对于标注数据的场景化要求正变得越来越高。

以汽车自动驾驶为例,相关汽车厂商对于标注场景要求越来越精细化,一些复杂的长尾场景诸如闯红灯车辆、横穿马路的行人、路边违章停靠的车辆等等出现的频率开始增多,相当多数据标注团队无法满足AI发展的要求。

汽车自动驾驶标注场景(来源:曼孚科技数据标注平台)

这一方面与数据标注团队欠缺定制化服务能力有关,另一方面也与标注团队使用的标注工具功能简单化有关。在AI大规模落地的时代背景下,无法满足项目方的需求即意味着面临被淘汰的风险,提升场景化、定制化标注能力是摆在很多标注团队面前相当现实的需求。

针对以上困局,曼孚科技从现实出发,做出了如下的努力:

1. 专业团队打造优质数据服务平台,服务成本降低30%以上;

2. 独立自研SaaS数据标注平台,预标注技术加持下标注效率可提升4倍以上;

3. 实时精确估算与AI辅助筛查,数据精确至99%以上;

4. 支持私有云部署,实时监测加强安全保护;

5. 定制化场景搭建,7X24小时快速技术响应。

通过以上努力,曼孚科技致力于为客户提供高水准、高效率、定制化、场景化的数据标注服务体验。曼孚科技旗下的数据采集标注一站式解决方案平台正在自动驾驶、安防、VR/AR、无人机、新零售、AI教育、工业机器人等相关领域悄然改变着这个世界。

尽管当下数据标注行业面临的困局已经影响了整体产业的蓬勃发展,但正如曼孚科技的愿景一样,我们将凭借自身努力,用数据解放AI的一切可能。

AI数据标注行业面临的5大发展困局丨曼孚科技的更多相关文章

  1. 破局AI落地难,数据标注行业需率先变革丨曼孚科技

    ​2019年,国内人工智能领域的投融资热情大幅降低,相当数量的AI企业彻底消失在了历史的长河中,“人工智能寒潮已至”甚至成为行业年度热词. 与前几年创业与投资热情齐头并进的盛况相比,近段时间的AI行业 ...

  2. 战“疫”背后的AI身影丨曼孚科技

    近期新型冠状病毒肺炎的疫情,牵动着全国上下人民的心. 截止2月11日上午10点,全国确诊人数已达42708人,疑似病例21675人. 突发的疫情让部分地区的快速诊疗能力出现了结构性的缺失,为了打赢这场 ...

  3. 一文看懂AI深度学习丨曼孚科技

    深度学习(Deep Learning)是机器学习的一种,而机器学习是实现人工智能的必经途径. 目前大部分表现优异的AI应用都使用了深度学习技术,引领了第三次人工智能的浪潮. 一. 深度学习的概念 深度 ...

  4. 曼孚科技:数据标注,AI背后的百亿市场

    ​ 1. 两年前,来自山东农村的王磊成为了一位数据标注员.彼时的他,工作内容非常简单且枯燥:识别图片中人的性别. 然而,一段时间之后,他注意到分配给他的任务开始变得越来越复杂:从识别性别到年龄,从框选 ...

  5. 曼孚科技:“四管齐下”筑牢AI数据隐私安全防线

    谈及数据,绕不开的一个话题就是数据隐私与数据安全.随着数字化进程加快,数据安全事件频发,据Risk Based Security统计,去年国际数据泄露事件近5000起,被泄露数据近41亿条,数据造成的 ...

  6. 曼孚科技:AI算法领域常用的39个术语(上)

    ​算法是人工智能(AI)核心领域之一. 本文整理了算法领域常用的39个术语,希望可以帮助大家更好地理解这门学科. 1. Attention 机制 Attention的本质是从关注全部到关注重点.将有限 ...

  7. 曼孚科技:AI自然语言处理(NLP)领域常用的16个术语

    ​自然语言处理(NLP)是人工智能领域一个十分重要的研究方向.NLP研究的是实现人与计算机之间用自然语言进行有效沟通的各种理论与方法. 本文整理了NLP领域常用的16个术语,希望可以帮助大家更好地理解 ...

  8. 曼孚科技:AI机器学习领域常用的15个术语

    机器学习是人工智能(AI)的核心,是使计算机具有智能的根本途径.​ 本文整理了一下机器学习领域常用的15个术语,希望可以帮助大家更好的理解这门涉及概率论.统计学.逼近论.凸分析.算法复杂度理论等多个领 ...

  9. 曼孚科技:AI算法领域常用的39个术语(下)

    算法是人工智能(AI)核心领域之一. 本文整理了算法领域常用的39个术语,希望可以帮助大家更好地理解这门学科. 本文为下半部分,上半部分见本账号上一篇文章. 19.迁移学习(Transfer Lear ...

随机推荐

  1. 2.OpenStack 网络简介(neutron)

    OpenStack 网络简介(neutron) 概述和组件 OpenStack 网络允许您创建和管理网络对象, 如网络.子网和端口, 其他 OpenStack 服务可以使用.插件可以实现, 以适应不同 ...

  2. 时序数据库 Apache-IoTDB 源码解析之文件数据块(四)

    上一章聊到行式存储.列式存储的基本概念,并介绍了 TsFile 是如何存储数据以及基本概念.详情请见: 时序数据库 Apache-IoTDB 源码解析之文件格式简介(三) 打一波广告,欢迎大家访问Io ...

  3. FFMPEG结构体分析:AVCodecParameters

    /** * This struct describes the properties of an encoded stream. * * sizeof(AVCodecParameters) is no ...

  4. (原)NSQ源码阅读和分析(1)

    原文出处:https://www.cnblogs.com/lihaiping/p/12324371.html 本文记录自己在阅读和学习nsq源码的时候的一些学习笔记,主要目的是个人总结和方便后期查阅. ...

  5. zip压缩包伪加密技术

    一个 ZIP 文件由三个部分组成: 压缩源文件数据区 + 压缩源文件目录区 + 压缩源文件目录结束标志 压缩源文件数据区: 50 4B 03 04:这是头文件标记(0x04034b50) 14 00: ...

  6. 无线网络WPA加密算法基础

    2013-11-13 23:08 (分类:网络安全) 对无线没什么认识,总听说有人蹭网,还有卖蹭网器的,于是补充一下知识. 无线加密有两类:WEP WAP,目前采用WEP加密的非常少了,WEP应该只是 ...

  7. mysql 查询指定数据库所有表, 指定表所有列, 指定列所有表 所有外键及索引, 以及索引的创建和删除

    查询指定 数据库 中所有 表 (指定数据库的,所有表) // 可以把 TABLE_NAME 换成 * 号, 查看更丰富的信息 SELECT TABLE_NAME FROM information_sc ...

  8. 大数四则运算之减法运算-----c语言版

    /* 分三种情况: 1.减数长度大于被减数 交换减数与被减数,输出负号,方便减 2.减数长度等于被减数(分三种情况) a.减数大于被减数,类似1情况1 b.减数等于被减数,两数相等,直接输出0,完成. ...

  9. xmake v2.3.1 发布, 无缝对接其他构建系统

    最近对xmake内部做了不少的重构来改进,并且新增了不少实用的新特性,欢迎来体验. 项目源码 官方文档 一些新特性: 一键编译其他构建系统维护的项目,实现无缝对接,并且支持交叉编译(比如autotoo ...

  10. TCP/IP分为几层?各层的作用是什么?

    1. 应用层 2.传输层 3.网络层 4.网络接口层* 1.应用层 TCP/IP协议族在这一层面有着很多协议来支持不同的应用,许多大家所熟悉的基于Internet的应用的实现就离不开这些协议.如我们进 ...