过去几年,人工智能一路狂飙,从识图识声,到能写能画,再到能干活做决策,甚至走上现实生活的“物理战场”。你是否也曾困惑,AI到底发展到哪个阶段了?又有哪些能力正在悄悄进化?

Nvidia的创始人黄仁勋(Jensen Huang)在 GTC 2025 提出了AI 发展的四个阶段。

今天,我们就来具体聊聊 AI 发展的 四个阶段

Perception AI → Generative AI → Agentic AI → Physical AI

每一阶段,都是一次技术跃迁。看完本文,你将秒懂它们的本质区别与商业机会。


️ 第一阶段:Perception AI(感知型AI)

让 AI 看得见、听得懂、读得清

这是 AI 的“眼睛”和“耳朵”,它让机器第一次具备了“理解世界”的能力。

代表能力:

  • 图像识别(CV):人脸识别、目标检测、安防监控
  • 语音识别(ASR):语音助手、电话客服
  • 文本识别(OCR):发票识别、合同解析
  • 情感分析、实体识别、关键词抽取

编者注:

聚焦感知能力:让 AI “看懂”(CV:图像识别)、“听懂”(ASR:语音识别)、“读懂”(OCR)等基本任务,是 AI 的起点。

英文缩写词解释:

CV(Computer Vision)= 计算机视觉,它是人工智能(AI)领域的一个重要分支,研究如何让机器“看懂”图像、视频、甚至三维世界中的内容。

ASR(Automatic Speech Recognition)= 自动语音识别,让机器听懂人说话,转成文本。

OCR(Optical Character Recognition)= 光学字符识别,让机器看懂文字,从图片中读出文字,本质是CV(计算机视觉)的细分任务。

商业价值:

  • 金融风控:票据识别、影像审核
  • 医疗影像:病灶检测、报告辅助
  • 智能硬件:智能安防摄像头、车载感知系统

这阶段的AI虽然智能,但只能“看见”世界,无法“改变”世界。


✍️ 第二阶段:Generative AI(生成型AI)

让 AI 能“表达”“创作”,第一次具备了创意和内容输出能力

这一波的主角你一定熟:ChatGPT、Midjourney、Suno(音乐生成)、Sora(视频生成)……

代表能力:

  • 生成文本:聊天、文章、摘要、代码
  • 生成图像:海报设计、产品图、插画
  • 生成音频/音乐:AI歌手、播报配音
  • 多模态融合:文字转视频、图像转语音

商业价值:

  • 内容创作工具:AI 写作、AI 配图、AI 视频
  • 营销自动化:文案生成、广告素材组合
  • 编程助手:GitHub Copilot、APEX AI Assistant

这一阶段的 AI 就像“有创造力的秘书”,大大提高了内容产业的效率。

编者注:

像本文这样的科普文章,笔者也是充分用到生成型AI的能力,先提出具体要求让它帮我生成初稿,然后再反复校对修改,确保符合自己最初的意图,相比以前的从零开始模式,效率上要提升很多。


第三阶段:Agentic AI(智能体AI)

真正能“自己干活”的 AI 时代来了

如果说 ChatGPT 是“聪明的对话者”,那么 Agentic AI 就是“你可以托付任务的数字员工”。

它不仅能理解你的需求,还能自己想办法完成任务,比如:

  • 自动拆解步骤(先查资料 → 再写报告 → 最后发邮件)
  • 主动调用各种工具(查天气、调用 API、执行 SQL、调用搜索引擎)
  • 多轮思考 + 状态追踪(记住你前面说的话、当前进度)

它具备哪些关键能力?

  • 任务理解 + 拆解 + 执行
  • 调用外部工具(API/数据库/搜索等)
  • 多轮执行 + 上下文记忆
  • 多个智能体协作,完成复杂任务

举几个典型案例:

  • LangChain / AutoGen 智能体:它们是开发者用来构建“能自主执行任务”的 AI 系统框架。

    比如让 AI 自动查找资料 → 汇总成报告 → 发送通知,甚至可以自己生成代码并测试运行。
  • 企业 AI Copilot:如 Microsoft 365 Copilot,自动总结会议纪要、发邮件、安排日程
  • 流程自动化增强:AI 自动登录 OA 系统 → 审批报销 → 通知员工,像一个自动办公机器人

商业价值:

  • 数字化办公助理:帮你整理文件、写文案、收集信息
  • 智能客服和运营:根据用户对话自动查询订单、推荐商品
  • 业务流程自动化:用 AI 替代重复点击和操作,提高效率

这阶段的 AI 不再只是工具,而是真正“可托付任务的虚拟员工”。

编者注:

这一阶段就有些厉害了,也就是说每个智能体都可以自主决策做实际的事情了,不需要我们人工干预就能获取比较好的结果。因为智能体通常要涉及到多次的工具调用,多次的LLM模型交互,所以等待的时间肯定要比直接的生成式AI要久,但是在很多场景下这都不是问题,人们通常是可以接受多花一些时间得到更靠谱更符合自己预期的结果。


第四阶段:Physical AI(实体型AI)

AI 开始“动手”,从数字世界走向现实世界!

这是AI能力在现实物理世界中的终极体现——有眼(感知)、有脑(决策)、有身体(执行),能直接行动改变物理世界!

注意:不是所有机器人都叫 Physical AI!

许多传统设备(如老式扫地机器人、机械臂)只是“预设程序驱动”的自动化产物。

而真正的 Physical AI,必须具备:

  • 感知:能看到环境(如识别宠物/人)
  • 决策:能自主判断、规划任务(如动态避障)
  • 表达:能用语音、图像反馈清扫状态
  • 执行:能越障、能动态适配环境

只有像 Tesla FSD、Atlas、Dyson AI 扫地旗舰款这类设备,才刚刚具备「感知→决策→执行」的闭环。

我们正处在从 Agentic AI 向 Physical AI 过渡的早期阶段。

商业价值:

  • 仓储自动化、柔性生产
  • 生活服务机器人(陪护/清洁/配送)
  • 实体场景劳动力替代:物流/酒店/医疗操作

这一阶段的 AI,不仅能想,还能做,甚至能替代人类“物理劳动力”。

编者注:

这一阶段就更加神奇且令人神往了,需要注意的是,即便是这里提到的所谓新一代扫地机器人等代表形态,也只是纯粹为了让大家更好理解,勉强算是Physical AI前期尝试的一个例子/雏形而已,真正的Physical AI 时代,机器不但可以在物理世界行动,还能够深入理解环境中摩擦、惯性、因果关系、物体恒存等,甚至在未来,可能要比人类理解的更加深入和透彻,届时会出现各种各样的机器人等实体应用。


总结:AI 四阶段的能力演进图

阶段 关键词 核心能力 典型设备 商业价值
Perception AI 感知理解 识别图像/语音/文本 监控摄像头 安防监控、医疗影像辅助
Generative AI 表达创作 生成文本/图像/音频 ChatGPT 内容创作、营销自动化
Agentic AI 自主执行 拆任务/调工具/记状态 AI办公助手 智能流程自动化
Physical AI 实体行动 控制物理设备与环境 AI机器人 智能制造、无人服务终端

为什么要了解这个框架?

  • 产品经理 → 定位产品阶段,定义能力边界与商业模式
  • 技术专家 → 理解LLM+多模态+Agent+机器人融合路径
  • 行业用户 → 预判哪些“智能能力”将重塑生产力

最后一问:你准备好迎接 Agentic 和 Physical AI 时代了吗?

未来 5 年,最有潜力的 AI 创新,正处于 第 3 阶段(Agentic)向第 4 阶段(Physical)迈进的临界点。具身智能、机器人基础模型、人形机器人等突破正加速到来!

让我们一起站上智能新时代的浪尖!

如果这篇框架解析对你有启发,欢迎点赞、转发,传播真正“穿透AI迷雾的认知坐标”。

从“看懂世界”到“改造世界”:AI发展的四个阶段你了解了吗?的更多相关文章

  1. 一张图让你看懂锻压、CNC、压铸、冲压四类工艺!

    (锻压+CNC+阳极.CNC+阳极.压铸+阳极.冲压+阳极手机外壳比较) 上图为一张雷达图,该图比较直观形象地描述了4大手机外壳工艺在6个维度(加工成本.CNC用量.加工周期.成品率.可设计性.外观质 ...

  2. 生成式AI对业务流程有哪些影响?企业如何应用生成式AI?一文看懂

    集成与融合类ChatGPT工具与技术,以生成式AI变革业务流程 ChatGPT背后的生成式AI,聊聊生成式AI如何改变业务流程 ChatGPT月活用户过亿,生成式AI对组织的业务流程有哪些影响? 生成 ...

  3. 看懂物联网fr

        看懂物联网 2015-10-11 物联网世界 1.第三次IT浪潮 互联网时代的特征是信息驱动了生产力,无论众包.订单式生产这些理论:还是B2C.O2O各类业务模式:归根结底,是信息优化了生产关 ...

  4. 你的计算机也可以看懂世界——十分钟跑起卷积神经网络(Windows+CPU)

    众所周知,如果你想研究Deep Learning,那么比较常用的配置是Linux+GPU,不过现在很多非计算机专业的同学有时也会想采用Deep Learning方法来完成一些工作,那么Linux+GP ...

  5. 一张图看懂AI、机器学习和深度学习的区别

    AI(人工智能)是未来,是科幻小说,是我们日常生活的一部分.所有论断都是正确的,只是要看你所谈到的AI到底是什么. 例如,当谷歌DeepMind开发的AlphaGo程序打败韩国职业围棋高手Lee Se ...

  6. 人工智能机器学习底层原理剖析,人造神经元,您一定能看懂,通俗解释把AI“黑话”转化为“白话文”

    按照固有思维方式,人们总以为人工智能是一个莫测高深的行业,这个行业的人都是高智商人群,无论是写文章还是和人讲话,总是讳莫如深,接着就是蹦出一些"高级"词汇,什么"神经网络 ...

  7. 系统A一定会按照自我的样子改造世界

    A一定会按照自己的样子去构建系统A1,A1一定还会按照自己的样子去构建系统A1.1,A1.1一定还是会按照自我的样子去构建A1.1.1……我们编程,我们改造世界,我们的方向是被注定要朝着构建人造人的方 ...

  8. 一文看懂AI芯片竞争五大维度

    下一波大趋势和大红利从互联网+让位于人工智能+,已成业界共识.在AI的数据.算法和芯片之三剑客中,考虑到AI算法开源的发展趋势,数据与芯片将占据越来越重要的地位,而作为AI发展支柱的芯片更是AI业的竞 ...

  9. [转帖] 一文看懂:"边缘计算"究竟是什么?为何潜力无限?

    一文看懂:"边缘计算"究竟是什么?为何潜力无限? 转载cnbeta   云计算 雾计算 边缘计算...   知名创投调研机构CB Insights撰文详述了边缘计算的发展和应用前景 ...

  10. 一文看懂web服务器、应用服务器、web容器、反向代理服务器区别与联系

    我们知道,不同肤色的人外貌差别很大,而双胞胎的辨识很难.有意思的是Web服务器/Web容器/Web应用程序服务器/反向代理有点像四胞胎,在网络上经常一起出现.本文将带读者对这四个相似概念如何区分. 1 ...

随机推荐

  1. C# 中比较实用的关键字,基础高频面试题!

    前言 在C#编程中关键字是构建逻辑和实现功能的基石,它承载着编程语言的语法规则和编程智慧.熟练掌握这些基础高频关键字对提升编程能力和面试表现至关重要,它们是日常开发和解决复杂问题的关键. DotNet ...

  2. 软件测试_Fiddler抓包工具

    多数资料摘抄至 https://www.cnblogs.com/miantest/p/7289694.html 一.在 macOS 下如何安装 (https://www.telerik.com/fid ...

  3. 关于Primavera P6版本选择上的一些看法

    从开始接触P6到目前也有近6年的时间,从最开始用的V7 (除P6.2.1)到现在用的18.8.0 ,除去一些小版本,中间自己跨越了8个不同版本    7.0,  (2013)    8.2       ...

  4. ZKmall开源商城iOS 与安卓双端开发:如何平衡 B2B2C 商城的代码复用与性能

    在ZKmall开源商城的iOS与安卓双端开发中,平衡B2B2C商城的代码复用与性能是一个关键考量.以下是一些建议和实践方法,以实现这一目标: 一.架构分层设计:解耦与复用 1. 分层架构模型 merm ...

  5. 主存的扩展及其CPU的连接——位扩展

    其初始状态 进行读操作: 输入对应地址,将MREQ端设置为低电平,此时片选端有效,r/w端为高电平,所以写使能端无效,然后通过数据线和数据总线,CPU读取数据. 进行写操作: 输入对应地址,将R/W设 ...

  6. DelayQueue的take方法底层原理

    一.DelayQueue的take()方法底层原理 DelayQueue 的 take 方法是其核心方法之一,用于从队列中获取并移除延迟时间到期的元素.如果队列为空或没有延迟到期的元素,调用 take ...

  7. robotframework之数据驱动

    用robotframework做接口自动化时,如果执行用例条数比较多时,需要把用例存到表格当中,通过数据驱动读取表格内容. 一.引入第三方库 数据驱动的第三方库:DataDriver 直接在setti ...

  8. 多年后再做Web开发,AI帮大忙

    最近在AI辅助下做一个简单的网站开发,真是感叹AI的强大呀! 虽然多年前我做过Web前端和后端开发,但是那时候的开发没有现在这么容易入门.上手. 之前SSH(Structs2+Spring+Hiber ...

  9. 备注一下,SolidColorBrush,自定义颜色

    new SolidColorBrush((Color)ColorConverter.ConvertFromString("#27212B"))

  10. python_pyinstall打包exe后文件找不到(路径不对),包括配置文件找不到,excel文件找不到等等

    运行路劲和当前文件真实路径不是一个!! 解决 real_dir = os.path.dirname(os.path.realpath(sys.executable))