前段时间去了长春一汽,聊了Reinforcement Learning方面的工作,既是面试,也是谈了谈意向,最后全部OK,本打算是签合同了,结果HR说要求有三年的社保缴纳证明工作经验,最后说可以减到24个月,不过说来也是有意思,我这人还真没社保,这就尴尬了,最后说这是上面的文件,国企就这要求,后来也只能作罢,但是这一趟也和一汽那边的人聊了聊,中间也是闲聊,对方的对接人员提了一个问题,那就是“国产AI模型和美国顶级AI模型的距离在哪?”,本文也是自己突然想起了这问题,也就有了下面内容。

这个AI模型的差距,其原因无非就是:算力?算法?数据?

我国的算力或许没有美国多,但是真要认真比,那也绝对没啥大差别,弄不好还能压一头,要对我国算力的库存有一定信心,也要对中国的社会的资金要有一定信心。

那么如果不是算力,那能是算法吗?

估计也不是,算法deep learning这东西有些玄幻,有些炼丹,但是不要忘记,几乎所有的AI论文、AI模型、相关的技术都是开源的,是免费的,是公开的,即使最后的chatgpt3.5还是4.0没公开论文但是有了之前的所有公开的技术和文档,这方面也绝对不是差距。

那就只有一个原因了,那就是数据。

我们要知道,虽然中国人很多,中国的汉语文字也很多,但是你要知道全世界说的最多的语言还是英语,全世界的主要的科技文档、社会学、医学文档都是用英文撰写的,几乎所有的自然语言的语料库也都是英文的,世界上的视频、文字等等电子化的资料也都是英文为主的,虽然中文我们有14亿人,但是你要知道,除了中国以外几乎大部分的这个地球上的人可都是在用英语的,这就是现实情况。而且最愁人的还有,那就是几乎所有的NLP的研究也都是以英文为主的,那你说在这个大背景之前我们搞的AI模型的这个中文语料库怎么和美国的那些人比,而且这里面我们还要考虑到语言特性,比如英文的表达更偏向形式表达,而中文的表达更偏向于联想表达,中文的表达信息量更大也更能处理和表达,而且在这之上再加上语料库的资源的不足和质量有限的问题,所以采用了这个NLP方面的AI模型表现的差距。

说这个“对话生成的系统”可能很多人不理解这个语料和语言本身的差距,那么我们还可以看看这个copilot,要知道世界上的绝大部分代码都是保存在GitHub上的,虽然我国有gitee,但是但凡是搞IT的估计也都是知道的,这个GitHub和Gitee根本就不是一个量级,在我看来这二者之间至少差了两个数量级,不论是资金、代码资料还是代码数,还是用户数,都是两个数量级的差距,甚至还不止,弄不好能有3到4个数量级,1万倍的差距。那么在这么大的差距之前,我们又怎么可能在这种数据资源上训练出和美国AI相匹敌的算法模型呢,所以在我看来,在我们的基础数据有着这么大的差距的情况下,我们的模型还能取得和美国AI模型性能相当的表现,这并不能说明我国的AI领域不行,而是说明我们的AI领域要远远强于美国。这就相当于什么,这就相当于当年打抗美援朝战争那样,我们用低端武器把美国的那些高端武器的军队挡住了,那不是平手,那就是战胜。

国产AI模型和美国顶级AI模型的距离在哪?—— 算力?算法?数据?的更多相关文章

  1. Meta AI 开源万物可分割 AI 模型(SAM)

    开始 4 月 6 日,根据 Meta AI 官方博客,Meta AI 宣布推出了一个 AI 模型 Segment Anything Model(SAM,分割一切模型).据介绍,该模型能够根据文本指令等 ...

  2. SPSS分析技术:无序多元Logistic回归模型;美国总统大选的预测历史及预测模型

    SPSS分析技术:无序多元Logistic回归模型:美国总统大选的预测历史及预测模型 在介绍有序多元Logistic回归分析的理论基础时,介绍过该模型公式有一个非常重要的假设,就是自变量对因变量多个类 ...

  3. 一个AI产品经理怎么看AI的发展

    一个AI产品经理怎么看AI的发展 https://www.jianshu.com/p/bed6b22ae837 最近一直在思考这个问题,人工智能接下来的几年会有什么样的发展,是否真的能够在很多工作岗位 ...

  4. AI:从游戏引擎--到AI

    原文链接:http://blog.csdn.net/left_la/article/details/6358911#t9 这是我在Gameres上看到的一篇文章,文章很长,全文分为11个部分,看后感觉 ...

  5. 树状结构Java模型、层级关系Java模型、上下级关系Java模型与html页面展示

    树状结构Java模型.层级关系Java模型.上下级关系Java模型与html页面展示 一.业务原型:公司的组织结构.传销关系网 二.数据库模型 很简单,创建 id 与 pid 关系即可.(pid:pa ...

  6. OSI七层协议模型、TCP/IP四层模型和五层协议体系结构之间的关系

    一.OSI七层模型 OSI七层协议模型主要是:应用层(Application).表示层(Presentation).会话层(Session).传输层(Transport).网络层(Network).数 ...

  7. TCP/IP四层协议模型与ISO七层模型

    TCP/IP四层协议模型与ISO七层模型 在世界上各地,各种各样的电脑运行着各自不同的操作系统为大家服务,这些电脑在表达同一种信息的时候所使用的方法是千差万别.就好像圣经中上帝打乱了各地人的口音,让他 ...

  8. 简述OSI七层协议模型、TCP/IP四层模型和五层协议之间的关系

    一.OSI七层模型 OSI七层协议模型主要是:应用层(Application).表示层(Presentation).会话层(Session).传输层(Transport).网络层(Network).数 ...

  9. 网络基础:OSI 七层模型、TCP/IP 四层模型

    1.Internet历史 1. 1968年由美国ARPA机构提出"资源共享计算机网络”,让ARPA的计算机互联起来,叫做阿帕网;2. 1974年,第一个TCP协议详细说明发布了.3. 一个 ...

  10. [Algorithm & NLP] 文本深度表示模型——word2vec&doc2vec词向量模型

    深度学习掀开了机器学习的新篇章,目前深度学习应用于图像和语音已经产生了突破性的研究进展.深度学习一直被人们推崇为一种类似于人脑结构的人工智能算法,那为什么深度学习在语义分析领域仍然没有实质性的进展呢? ...

随机推荐

  1. 判断一个数n是不是快乐数

    引言 题目:编写一个算法来判断一个数n是不是快乐数 来源:网友分享的面试算法题 题目描述 [快乐数定义] 对于一个正整数,每一次将该数替换为它每个位置上的数字的平方和. 然后重复这个过程直到这个数变为 ...

  2. uniapp 使用z-paging 分页组件 写在头部插槽内的单选按钮无法点击

    这个问题是因为组件层级太低 <z-paging ref="paging" v-model="dataList" @query="queryLis ...

  3. MoneyPrinterPlus:AI自动短视频生成工具-阿里云配置详解

    MoneyPrinterPlus是一个很好的自动短视频生成工具,虽然是一个非常好的工具,但是有些小伙伴可能不太清楚具体应该如何配置才能让它跑起来. 因为MoneyPrinterPlus依赖一些具体的配 ...

  4. 纯代码搭建iOS三级结构(UITabbarController+UINavigationController+UIViewController)

    声明:这里所指的三级结构不是网上百度中所经常提及的三级框架或者MVC模式,而是指UITabbarController+UINavigationController+UIViewController. ...

  5. spring使用jdk17运行出现编码问题

    遇到一个比较奇怪的问题. 这个问题别人也遇到过. https://blog.csdn.net/gao_chuan_g/article/details/115117712 一.情况简介 使用jdk17+ ...

  6. 原生js或者是es中让人厌恶的一些地方

    js总体来说,是个不错的语言,最大的好处的是简单. 但这个基于es6的一些js也有一些非常怪异的写法,这是非常令人憎恶的地方. c++总体上也算不错,但为什么不是很受欢迎,因为它把自己搞得太复杂了,复 ...

  7. windows10 iis 环境下部署 asp.net core 应用程序的步骤

    1.运行powershell,在运行窗口中输入:powershell,点回车,如下图: 2.安装choco,在打开的powershell窗口中输入:Set-ExecutionPolicy Bypass ...

  8. python3 podman库

    前言 最近在使用 podman, 需要调用一些 podman的接口,podman官网提供的接口并不是很详尽,使用 unix.sock 的方式调用有一 些困难.后来测试 ai 工具时,其提供了一个比较好 ...

  9. 转-tomcat在控制台打印时乱码

    描述 使用windows的控制台启动tomcat (8.5),Tomcat终端打印出现乱码,在CSDN上找到一个简单有效的解决办法,在此记录. 解决方案 找到Tomcat的根目录下的 /conf/lo ...

  10. vulhub - INFOSEC PREP: OSCP

    vulhub - INFOSEC PREP: OSCP 信息收集 nmap 192.168.157.0/24 nmap -sT --min-rate 10000 -p- 192.168.157.162 ...