AIGC的阿克琉斯之踵
摘要:现在,越来越多的企业和个人使用AIGC生成文章、图片、音乐甚至视频等内容,AIGC已经成为一种必备的工具。在游戏和原画师行业,甚至已经出现了第一批因为AI而失业的人。
本文分享自华为云社区《GPT-4发布,AIGC时代的多模态还能走多远?系列之二:AIGC的阿克琉斯之踵》,作者:ModelArts 开发 。
AIGC是继PGC(Professional Generated Content,专业生产内容)和UGC(User Generated Content,用户生产内容)之后的一个新时代,它带来了一种新的内容生产方式,并且还为内容注入了只有人类才具备的“创作”元素,开创了“模型”主导内容的时代。尽管AIGC技术已经有了相当大的提升,但仍然存在很多不足之处。
01 ChatGPT(包括GPT4)的诸多问题难以忽视
尽管ChatGPT(包括GPT4)是一个非常有用的工具,但它仍然存在许多问题。以下是一些经常出现的问题:
1) 强语言,弱知识,“一本正经地胡说八道”:在回答问题时,ChatGPT很容易“胡说八道”,因为它的回答通常是基于大量的文本数据而生成的,而不是真正的知识。比如下面的问题:
Q:红楼梦中贾宝玉为什么要葬花?
A:据小说描写,贾宝玉葬花的原因是因为他感到世间美好事物的短暂和凋零…
Q:鲁迅和周树人是同一个人吗?
A:不是同一个人,鲁迅和周树人是两个不同的人。鲁 迅…而周树人(1895年1月25日-1968年11月6日)也是中 国著名的现代作家和翻译家,代表作品有《春蚕》、《子夜》等
2) 逻辑推理不靠谱:不论是数学逻辑还是专业逻辑,比如下面的问题:
Q:3个人3天用3桶水,9个人9天用几桶水?
A:根据题目可知,3个人在三天内用了3桶水,
可以推算出每天每人用水量为:
3 桶 / 3 人 / 3 天 = 1 桶 / 人 / 天
因此,在9个人使用9天内需要的总用水量为:
1 桶 / 人 / 天 × 9 人 × 9 天 = 81 桶
所以,9个人在九天内需要用 81 桶的水。(正确答案27桶)
3) 实时信息自更新慢,新旧知识难以区分,比如下面的问题:
Q:gpt4是什么时候发布的?
A:抱歉,目前还没有关于GPT-4的官方发布计划和消息
4) 无法真正为领域类问题提供专业、靠谱的答案,比如下面的问题:
Q:华为手机没电了,请问能否使用苹果手机的充电器充电?
A:可以的,苹果手机和华为手机使用的充电器接口都是标准的USB接口,因此苹果手机的充电器也可以用来给华为手机充电。不过,请注意使用符合标准的充电器。
02 多模态大模型的跨模态生成能力尚不完善
虽然AIGC跨模态生成技术的视觉效果令人惊叹,但在实际应用过程中存在一些信息不对称的问题。目前,多模态大模型在跨模态生成方面仍然存在一些不完善之处,需要进一步研究和优化。从文本到图像的生成方向,Stable Diffusion的研究发现提示词与输出之间存在着显著的组合泛化问题。例如,在输入“红草绿花”的情况下,输出结果可能会是相反,这表明AI模型对于语义的理解存在错误。同样,当输入“一匹马骑着宇航员的照片”时,输出结果可能会是宇航员骑着马的照片,这也暴露出模型在语义理解方面的不足之处。为了解决这些问题,需要进一步研究和优化多模态大模型,研究方向包括改进模型的组合泛化能力、提高模型对于语义的理解、以及优化跨模态生成结果的准确性等,以使得多模态大模型在实际应用中更加可靠和有效。

(以上文图生成来自Stable Diffusion)
03 多模态大模型尚未完全理解多模态数据
GPT4大模型发布,加速了AIGC多模态的发展,当然多模态大模型的发展在近年来取得了令人瞩目的进展,但是作为一项前沿技术,仍存在着一系列问题需要解决。其中一个重要问题就是对于多模态数据的理解还不够充分。多模态数据是指来自不同感官或媒介的数据,如图像、音频、文本等。虽然多模态大模型可以同时处理多种类型的数据,但是对于跨模态数据的融合、对齐等方面,仍需要进一步探索和优化。
首先,对于多模态数据中的事实知识的理解不足。在实际应用中,很多跨模态生成任务都需要丰富的知识库和背景知识支撑。例如,文本描述和图像生成任务需要对具体事物的特征进行深入了解,而涉及到自然语言的任务,则需要对语言语义的理解更加准确。因此,建立更为完整准确的知识库是非常重要的。
其次,常识储备不足也是多模态大模型的瓶颈之一。常识是解决现实问题的基础,而在跨模态生成任务中,常识更是不可或缺。例如,在利用AIGC中AI作画的Stable Diffusion 作图的一个图像描述中,描绘出“小狗在路边玩耍”的情境更加符合日常生活的常识,而非描述为“四条腿的动物在道路上移动”,这说明常识缺失直接影响模型的表现效果。
最后,逻辑推理能力也是多模态大模型需要改进的地方。在实际场景中,有很多跨模态生成任务,需要通过逻辑推理进行相关内容的理解和生成。例如,基于文本的图像生成任务需要根据文本中的描述进行相应的推理,以便生成一张完整的图像。而当前多模态大模型的逻辑推理能力仍有待提高,未来的研究应该注重逻辑推理技术的研究和优化,以提高模型的综合表现能力。
总之,多模态大模型的未来研究应该致力于处理多模态数据的全面理解,选取合适的知识库和常识库,探索逻辑推理技术等方向,以提高多模态大模型在跨模态生成领域的表现效果。

(以上图来自视觉问答VQA)
04 多模态大模型PaLM-E离实用级还有多远?
多模态大模型PaLM-E的出现,标志着计算语言学作为人工智能领域的重要分支进入了一个新的繁荣期。PaLM-E依赖于如此庞大的参数,初步实现了对机器人的操控,但其在实用性方面还有待提高。其中,空间范围、物品种类和任务规划复杂度等方面的限制是最为突出的。目前展示出来的演示,其空间范围封闭有限,物品种类数量有限,规划任务比较简单,操作任务也相对简单。这些限制的存在,让人们对PaLM-E在真实复杂场景中的实用价值产生了质疑。
此外,PaLM-E在使用过程中还存在一些技术问题,例如需要耗费大量的时间来调试和训练,同时还需强大的计算资源才能支持其正常运行。这些问题在实际应用中都会给使用者带来极大的不便和成本压力。因此,需要从技术上不断优化和改进PaLM-E,使它能够更好地适应复杂的应用场景,并且让成本更低、易用性更高。当然,尽管PaLM-E离实用级还有一定距离,但是可以相信,随着技术的不断发展和突破,PaLM-E将结合各种场景打破技术限制,真正走进人们的生活和工作中,发挥其巨大的实用价值。

(以上图来自网络)
05 小结:多模态大模型的本质、前提与不足剖析
相比于传统的统计模型,多模态大模型有很多优势。它能够利用多种不同的信息源来进行学习和推理,从而更加全面地捕捉人类的知识、常识和逻辑推理能力;它也能够以较低成本实现自然语言处理、计算机视觉和语音识别等多项任务,提高了模型的效率和普适性;最后,多模态大模型还能够为人类提供更加直观、易懂的交互体验,让人们更加方便地获取信息和进行决策。
然而,多模态大模型也存在一些不足之处。首先,由于不同模态数据之间的差异性,多模态大模型的建立和优化过程需要消耗大量的计算资源和时间。其次,该模型尚存在着一些挑战和难点,例如如何对不同模态数据之间的关联进行建模以及如何解决数据对齐和逆向推导等问题。此外,多模态大模型还需要克服数据质量、隐私保护和数据伦理等方面的挑战,才能更好地应用于实际场景中。
因此,想要在AIGC领域发挥多模态大模型的优势,需要在技术研究、数据质量管理、隐私保护和数据伦理等方面继续深入研究和探索。只有在不断完善和优化多模态大模型的同时,才能更好地应对现实世界中的复杂情境和问题,提高人类社会的智能化水平。
AIGC的阿克琉斯之踵的更多相关文章
- p2p-如何拯救k8s镜像分发的阿喀琉斯之踵?
K8s的出现为PaaS行业的发展打了一针兴奋剂,Docker+k8s的技术路线已经成为了容器云的主流.尤其针对大流量,大弹性的应用场景来说,k8s将其从繁杂的运维.部署工作中彻底拯救出来.然而事情往往 ...
- p2p-如何拯救k8s镜像分发的阿喀琉斯之踵
K8s的出现为PaaS行业的发展打了一针兴奋剂,Docker+k8s的技术路线已经成为了容器云的主流.尤其针对大流量,大弹性的应用场景来说,k8s将其从繁杂的运维.部署工作中彻底拯救出来.然而事情往往 ...
- AIGC时代:未来已来
摘要:人工智能的快速发展使得我们进入了AIGC时代.AIGC时代的到来,将会带来巨大的机遇和挑战. 本文分享自华为云社区<GPT-4发布,AIGC时代的多模态还能走多远?系列之一: AIGC时代 ...
- rsync实现文件备份同步(比如服务器镜像)
[rsync实现网站的备份,文件的同步,不同系统的文件的同步,如果是windows的话,需要windows版本cwrsync] 一.什么是rsync rsync,remote synchronize顾 ...
- 运维命令rsync
如果你是一位运维工程师,你很可能会面对几十台.几百台甚至上千台服务器,除了批量操作外,环境同步.数据同步也是必不可少的技能. 说到“同步”,不得不提的利器就是rsync,今天就来说说我从这个工具中看到 ...
- 干货|爱奇艺CDN巡检系统技术解析
小结: 1. 中心处理系统 /1/将定制后的巡检任务拆分,通过配置与任务分发系统.CMDB*( configuration management database)将派发到边缘拨测系统/2/处理边缘拨 ...
- Linux rsync 命令学习
Rsync命令和cp命令很像,但是功能似乎更加复杂点,主要用来备份数据.看了网上一堆介绍的文章,感觉不是很通俗易懂.下面按照我的理解,做一些笔记: 同步方式 之前接触过一些同步软件,例如坚果云.百度云 ...
- iPhone X 的原深感模组
物理与数字世界正走向融合,我们每天醒来的时间.睡眠时长.心率和步数等数据都会被分享.上传并转化为分析数据.无处不自的 AI.互联互通和软件平台将改变用户对现实的感知. 2018 年的 CES 展(国际 ...
- rsync同步常用命令[转载]
转载:http://blog.csdn.net/niushuai666/article/details/16880061 如果你是一位运维工程师,你很可能会面对几十台.几百台甚至上千台服务器,除了批量 ...
- rsync同步常用命令
转载源地址http://blog.csdn.net/niushuai666/article/details/16880061 如果你是一位运维工程师,你很可能会面对几十台.几百台甚至上千台服务器,除了 ...
随机推荐
- Unity - EditorWindow 折叠树显示(IMGUI)
仅适用于2018之前的版本,有UIElements或者UIWidgets的最好用新的 基本实现 树节点 public interface ITreeNode { ITreeNode Parent { ...
- 记一次 OSS 大批量文件下载的实现 → bat脚本不好玩!
开心一刻 一天夜里,侄女跟我哥聊天 侄女一脸期待的看着我哥:爸爸,你说妈妈和奶奶谁漂亮啊? 我哥不慌不忙的拿起一粒瓜子,轻声说道:为啥没有你啊? 侄女笑容渐起,似乎得到了她想要的回答,仍继续问道:那妈 ...
- DDD技术方案落地实践
1. 引言 从接触领域驱动设计的初学阶段,到实现一个旧系统改造到DDD模型,再到按DDD规范落地的3个的项目.对于领域驱动模型设计研发,从开始的各种疑惑到吸收各种先进的理念,目前在技术实施这一块已经基 ...
- simple-check-100
代码脚本解开法 #include <stdio.h> int main(int argc, char* argv[]) { char flag_data[] = { 220, 23, 19 ...
- 发现AI自我意识:知识及其载体
知识的量子态 在回答什么是"理解"之前,我们先来讨论一下知识和其载体的定义.知识本身是一个抽象的概念,它可以被编码到各种物质载体中.无论是纸质书籍,还是人类大脑中的神经连接,抑或是 ...
- 【Javaweb】Servlet六 | HttpServletRequest类的含义及其使用方法【详解】
HttpServletRequest类的作用 每次只要有请求进入Tomcat服务器,Tomcat服务器就会把请求过来的Http协议信息解析好封装到Request对象中.然后传递到Service方法(d ...
- 30分钟带你精通git使用
非常抱歉,由于篇幅和时间限制,无法在30分钟内提供3000字左右的详细git使用介绍. Git是一个强大的版本控制系统,学习使用它需要一定的时间和实践.以下是一个简要的Git使用指南,帮助您入门并进行 ...
- Java的四种内部类(成员内部变量,静态内部变量,局部内部类,匿名内部类)
内部类 内部类就是在一个内的内部再定义一个内 内部类的分类:成员内部类,静态内部类,局部内部类,匿名内部类 (1)成员内部类 指类中的一个普通成员,可以定义成员属性,成员方法 内部类是可以访问外部类的 ...
- Lucene和索引
全文索引的原理: 是 扫描每个词 对每个词创建索引,指明这个词在文章出现的次数和位置 全文检索的流程:对 检索的对象(文章,文档,网页内容) 预先建立 文档域 和 索引域 ,在索引域会分词创建索引,然 ...
- 记一次 .NET 某新能源材料检测系统 崩溃分析
一:背景 1. 讲故事 上周有位朋友找到我,说他的程序经常会偶发性崩溃,一直没找到原因,自己也抓了dump 也没分析出个所以然,让我帮忙看下怎么回事,那既然有 dump,那就开始分析呗. 二:Wind ...