国产AI模型和美国顶级AI模型的距离在哪?—— 算力?算法?数据?
前段时间去了长春一汽,聊了Reinforcement Learning方面的工作,既是面试,也是谈了谈意向,最后全部OK,本打算是签合同了,结果HR说要求有三年的社保缴纳证明工作经验,最后说可以减到24个月,不过说来也是有意思,我这人还真没社保,这就尴尬了,最后说这是上面的文件,国企就这要求,后来也只能作罢,但是这一趟也和一汽那边的人聊了聊,中间也是闲聊,对方的对接人员提了一个问题,那就是“国产AI模型和美国顶级AI模型的距离在哪?”,本文也是自己突然想起了这问题,也就有了下面内容。
这个AI模型的差距,其原因无非就是:算力?算法?数据?
我国的算力或许没有美国多,但是真要认真比,那也绝对没啥大差别,弄不好还能压一头,要对我国算力的库存有一定信心,也要对中国的社会的资金要有一定信心。
那么如果不是算力,那能是算法吗?
估计也不是,算法deep learning这东西有些玄幻,有些炼丹,但是不要忘记,几乎所有的AI论文、AI模型、相关的技术都是开源的,是免费的,是公开的,即使最后的chatgpt3.5还是4.0没公开论文但是有了之前的所有公开的技术和文档,这方面也绝对不是差距。
那就只有一个原因了,那就是数据。
我们要知道,虽然中国人很多,中国的汉语文字也很多,但是你要知道全世界说的最多的语言还是英语,全世界的主要的科技文档、社会学、医学文档都是用英文撰写的,几乎所有的自然语言的语料库也都是英文的,世界上的视频、文字等等电子化的资料也都是英文为主的,虽然中文我们有14亿人,但是你要知道,除了中国以外几乎大部分的这个地球上的人可都是在用英语的,这就是现实情况。而且最愁人的还有,那就是几乎所有的NLP的研究也都是以英文为主的,那你说在这个大背景之前我们搞的AI模型的这个中文语料库怎么和美国的那些人比,而且这里面我们还要考虑到语言特性,比如英文的表达更偏向形式表达,而中文的表达更偏向于联想表达,中文的表达信息量更大也更能处理和表达,而且在这之上再加上语料库的资源的不足和质量有限的问题,所以采用了这个NLP方面的AI模型表现的差距。
说这个“对话生成的系统”可能很多人不理解这个语料和语言本身的差距,那么我们还可以看看这个copilot,要知道世界上的绝大部分代码都是保存在GitHub上的,虽然我国有gitee,但是但凡是搞IT的估计也都是知道的,这个GitHub和Gitee根本就不是一个量级,在我看来这二者之间至少差了两个数量级,不论是资金、代码资料还是代码数,还是用户数,都是两个数量级的差距,甚至还不止,弄不好能有3到4个数量级,1万倍的差距。那么在这么大的差距之前,我们又怎么可能在这种数据资源上训练出和美国AI相匹敌的算法模型呢,所以在我看来,在我们的基础数据有着这么大的差距的情况下,我们的模型还能取得和美国AI模型性能相当的表现,这并不能说明我国的AI领域不行,而是说明我们的AI领域要远远强于美国。这就相当于什么,这就相当于当年打抗美援朝战争那样,我们用低端武器把美国的那些高端武器的军队挡住了,那不是平手,那就是战胜。
国产AI模型和美国顶级AI模型的距离在哪?—— 算力?算法?数据?的更多相关文章
- Meta AI 开源万物可分割 AI 模型(SAM)
开始 4 月 6 日,根据 Meta AI 官方博客,Meta AI 宣布推出了一个 AI 模型 Segment Anything Model(SAM,分割一切模型).据介绍,该模型能够根据文本指令等 ...
- SPSS分析技术:无序多元Logistic回归模型;美国总统大选的预测历史及预测模型
SPSS分析技术:无序多元Logistic回归模型:美国总统大选的预测历史及预测模型 在介绍有序多元Logistic回归分析的理论基础时,介绍过该模型公式有一个非常重要的假设,就是自变量对因变量多个类 ...
- 一个AI产品经理怎么看AI的发展
一个AI产品经理怎么看AI的发展 https://www.jianshu.com/p/bed6b22ae837 最近一直在思考这个问题,人工智能接下来的几年会有什么样的发展,是否真的能够在很多工作岗位 ...
- AI:从游戏引擎--到AI
原文链接:http://blog.csdn.net/left_la/article/details/6358911#t9 这是我在Gameres上看到的一篇文章,文章很长,全文分为11个部分,看后感觉 ...
- 树状结构Java模型、层级关系Java模型、上下级关系Java模型与html页面展示
树状结构Java模型.层级关系Java模型.上下级关系Java模型与html页面展示 一.业务原型:公司的组织结构.传销关系网 二.数据库模型 很简单,创建 id 与 pid 关系即可.(pid:pa ...
- OSI七层协议模型、TCP/IP四层模型和五层协议体系结构之间的关系
一.OSI七层模型 OSI七层协议模型主要是:应用层(Application).表示层(Presentation).会话层(Session).传输层(Transport).网络层(Network).数 ...
- TCP/IP四层协议模型与ISO七层模型
TCP/IP四层协议模型与ISO七层模型 在世界上各地,各种各样的电脑运行着各自不同的操作系统为大家服务,这些电脑在表达同一种信息的时候所使用的方法是千差万别.就好像圣经中上帝打乱了各地人的口音,让他 ...
- 简述OSI七层协议模型、TCP/IP四层模型和五层协议之间的关系
一.OSI七层模型 OSI七层协议模型主要是:应用层(Application).表示层(Presentation).会话层(Session).传输层(Transport).网络层(Network).数 ...
- 网络基础:OSI 七层模型、TCP/IP 四层模型
1.Internet历史 1. 1968年由美国ARPA机构提出"资源共享计算机网络”,让ARPA的计算机互联起来,叫做阿帕网;2. 1974年,第一个TCP协议详细说明发布了.3. 一个 ...
- [Algorithm & NLP] 文本深度表示模型——word2vec&doc2vec词向量模型
深度学习掀开了机器学习的新篇章,目前深度学习应用于图像和语音已经产生了突破性的研究进展.深度学习一直被人们推崇为一种类似于人脑结构的人工智能算法,那为什么深度学习在语义分析领域仍然没有实质性的进展呢? ...
随机推荐
- kettle从入门到精通 第六十六课 ETL之kettle kettle阻塞教程,轻松获取最后一行数据,so easy
场景:ETL沟通交流群内有小伙伴反馈,如何在同步一批数据完成之后记录下同步结果呢?或者是调用后续步骤.存储过程.三方接口等. 解决:使用步骤Blocking step进行阻塞处理即可. 1.下面的de ...
- ETL工具-nifi干货系列 第十八讲 nifi Funnel实战教程
1.Funnel (漏斗),Funnel是 NiFi 组件,用于将多个连接中的数据合并到一个连接中. 使用场景:nifi中的Funnel组件用于合并多个数据流并将它们传递到下游处理器.它可以将来自不同 ...
- windows 命令行调整跃点数
先用 route print -4 命令找到接口号: 接口列表10...00 ff 51 c4 53 b4 ......TAP-Windows Adapter V918...18 c0 4d 29 5 ...
- CM 停用 Parcel 异常
在将Doris集成到CM时,第一次打的包存在问题,想更新下,停用.删除Parcel时出现了问题卡住了,一直显示75%.无奈换了名称和版本,分配.激活,然后又卡在了75%,点开后,发现是同一台机器.其a ...
- StringRedisHelper
@Slf4j @Service public class StringRedisHelper { private StringRedisTemplate redisTemplate; @Autowir ...
- Java动态获取实现类 Class.forName(clazz).newInstance()和applicationContext.getBean, bean Map寻找方式,Java Map定义和初始化方法
Java动态获取实现类 Class.forName(clazz).newInstance()和applicationContext.getBean, bean Map寻找方式,Java Map定义和初 ...
- 这个vue3的后台管理系统虽然简洁但不简单
今天介绍一个新的Vue后台管理框架,相比其他后台功能丰富管理系统,这个后台管理系统可以用干净简洁来形容--Nova-admin Nova-admin Nova-admin 是一个基于Vue3.Vite ...
- vue3.4的更新,保证你看的明明白白
defineModel 同学已经转正 defineModel 在vue3.3中还是一个实验性功能, 但是经过一个学期的努力,该同学已经转正. defineModel的简单介绍 defineModel( ...
- 常见 i2c设备地址
背景 朋友分享的一份i2c器件地址清单,我觉得还不错. reference:https://learn.adafruit.com/i2c-addresses/the-list Special case ...
- Vs生成后 自动压缩 删除多余xml
setlocal enabledelayedexpansionset ProjectName=$(ProjectName)del /s /q /f "$(ProjectDir)bin\Deb ...