从“看懂世界”到“改造世界”:AI发展的四个阶段你了解了吗?
过去几年,人工智能一路狂飙,从识图识声,到能写能画,再到能干活做决策,甚至走上现实生活的“物理战场”。你是否也曾困惑,AI到底发展到哪个阶段了?又有哪些能力正在悄悄进化?
Nvidia的创始人黄仁勋(Jensen Huang)在 GTC 2025 提出了AI 发展的四个阶段。
今天,我们就来具体聊聊 AI 发展的 四个阶段:
Perception AI → Generative AI → Agentic AI → Physical AI
每一阶段,都是一次技术跃迁。看完本文,你将秒懂它们的本质区别与商业机会。
️ 第一阶段:Perception AI(感知型AI)
让 AI 看得见、听得懂、读得清
这是 AI 的“眼睛”和“耳朵”,它让机器第一次具备了“理解世界”的能力。
代表能力:
- 图像识别(CV):人脸识别、目标检测、安防监控
- 语音识别(ASR):语音助手、电话客服
- 文本识别(OCR):发票识别、合同解析
- 情感分析、实体识别、关键词抽取
编者注:
聚焦感知能力:让 AI “看懂”(CV:图像识别)、“听懂”(ASR:语音识别)、“读懂”(OCR)等基本任务,是 AI 的起点。
英文缩写词解释:
CV(Computer Vision)= 计算机视觉,它是人工智能(AI)领域的一个重要分支,研究如何让机器“看懂”图像、视频、甚至三维世界中的内容。
ASR(Automatic Speech Recognition)= 自动语音识别,让机器听懂人说话,转成文本。
OCR(Optical Character Recognition)= 光学字符识别,让机器看懂文字,从图片中读出文字,本质是CV(计算机视觉)的细分任务。
商业价值:
- 金融风控:票据识别、影像审核
- 医疗影像:病灶检测、报告辅助
- 智能硬件:智能安防摄像头、车载感知系统
这阶段的AI虽然智能,但只能“看见”世界,无法“改变”世界。
✍️ 第二阶段:Generative AI(生成型AI)
让 AI 能“表达”“创作”,第一次具备了创意和内容输出能力
这一波的主角你一定熟:ChatGPT、Midjourney、Suno(音乐生成)、Sora(视频生成)……
代表能力:
- 生成文本:聊天、文章、摘要、代码
- 生成图像:海报设计、产品图、插画
- 生成音频/音乐:AI歌手、播报配音
- 多模态融合:文字转视频、图像转语音
商业价值:
- 内容创作工具:AI 写作、AI 配图、AI 视频
- 营销自动化:文案生成、广告素材组合
- 编程助手:GitHub Copilot、APEX AI Assistant
这一阶段的 AI 就像“有创造力的秘书”,大大提高了内容产业的效率。
编者注:
像本文这样的科普文章,笔者也是充分用到生成型AI的能力,先提出具体要求让它帮我生成初稿,然后再反复校对修改,确保符合自己最初的意图,相比以前的从零开始模式,效率上要提升很多。
第三阶段:Agentic AI(智能体AI)
真正能“自己干活”的 AI 时代来了
如果说 ChatGPT 是“聪明的对话者”,那么 Agentic AI 就是“你可以托付任务的数字员工”。
它不仅能理解你的需求,还能自己想办法完成任务,比如:
- 自动拆解步骤(先查资料 → 再写报告 → 最后发邮件)
- 主动调用各种工具(查天气、调用 API、执行 SQL、调用搜索引擎)
- 多轮思考 + 状态追踪(记住你前面说的话、当前进度)
它具备哪些关键能力?
- 任务理解 + 拆解 + 执行
- 调用外部工具(API/数据库/搜索等)
- 多轮执行 + 上下文记忆
- 多个智能体协作,完成复杂任务
举几个典型案例:
- LangChain / AutoGen 智能体:它们是开发者用来构建“能自主执行任务”的 AI 系统框架。
比如让 AI 自动查找资料 → 汇总成报告 → 发送通知,甚至可以自己生成代码并测试运行。 - 企业 AI Copilot:如 Microsoft 365 Copilot,自动总结会议纪要、发邮件、安排日程
- 流程自动化增强:AI 自动登录 OA 系统 → 审批报销 → 通知员工,像一个自动办公机器人
商业价值:
- 数字化办公助理:帮你整理文件、写文案、收集信息
- 智能客服和运营:根据用户对话自动查询订单、推荐商品
- 业务流程自动化:用 AI 替代重复点击和操作,提高效率
这阶段的 AI 不再只是工具,而是真正“可托付任务的虚拟员工”。
编者注:
这一阶段就有些厉害了,也就是说每个智能体都可以自主决策做实际的事情了,不需要我们人工干预就能获取比较好的结果。因为智能体通常要涉及到多次的工具调用,多次的LLM模型交互,所以等待的时间肯定要比直接的生成式AI要久,但是在很多场景下这都不是问题,人们通常是可以接受多花一些时间得到更靠谱更符合自己预期的结果。
第四阶段:Physical AI(实体型AI)
AI 开始“动手”,从数字世界走向现实世界!
这是AI能力在现实物理世界中的终极体现——有眼(感知)、有脑(决策)、有身体(执行),能直接行动改变物理世界!
注意:不是所有机器人都叫 Physical AI!
许多传统设备(如老式扫地机器人、机械臂)只是“预设程序驱动”的自动化产物。
而真正的 Physical AI,必须具备:
- 感知:能看到环境(如识别宠物/人)
- 决策:能自主判断、规划任务(如动态避障)
- 表达:能用语音、图像反馈清扫状态
- 执行:能越障、能动态适配环境
只有像 Tesla FSD、Atlas、Dyson AI 扫地旗舰款这类设备,才刚刚具备「感知→决策→执行」的闭环。
我们正处在从 Agentic AI 向 Physical AI 过渡的早期阶段。
商业价值:
- 仓储自动化、柔性生产
- 生活服务机器人(陪护/清洁/配送)
- 实体场景劳动力替代:物流/酒店/医疗操作
这一阶段的 AI,不仅能想,还能做,甚至能替代人类“物理劳动力”。
编者注:
这一阶段就更加神奇且令人神往了,需要注意的是,即便是这里提到的所谓新一代扫地机器人等代表形态,也只是纯粹为了让大家更好理解,勉强算是Physical AI前期尝试的一个例子/雏形而已,真正的Physical AI 时代,机器不但可以在物理世界行动,还能够深入理解环境中摩擦、惯性、因果关系、物体恒存等,甚至在未来,可能要比人类理解的更加深入和透彻,届时会出现各种各样的机器人等实体应用。
总结:AI 四阶段的能力演进图
阶段 | 关键词 | 核心能力 | 典型设备 | 商业价值 |
---|---|---|---|---|
Perception AI | 感知理解 | 识别图像/语音/文本 | 监控摄像头 | 安防监控、医疗影像辅助 |
Generative AI | 表达创作 | 生成文本/图像/音频 | ChatGPT | 内容创作、营销自动化 |
Agentic AI | 自主执行 | 拆任务/调工具/记状态 | AI办公助手 | 智能流程自动化 |
Physical AI | 实体行动 | 控制物理设备与环境 | AI机器人 | 智能制造、无人服务终端 |
为什么要了解这个框架?
- 产品经理 → 定位产品阶段,定义能力边界与商业模式
- 技术专家 → 理解LLM+多模态+Agent+机器人融合路径
- 行业用户 → 预判哪些“智能能力”将重塑生产力
最后一问:你准备好迎接 Agentic 和 Physical AI 时代了吗?
未来 5 年,最有潜力的 AI 创新,正处于 第 3 阶段(Agentic)向第 4 阶段(Physical)迈进的临界点。具身智能、机器人基础模型、人形机器人等突破正加速到来!
让我们一起站上智能新时代的浪尖!
如果这篇框架解析对你有启发,欢迎点赞、转发,传播真正“穿透AI迷雾的认知坐标”。
从“看懂世界”到“改造世界”:AI发展的四个阶段你了解了吗?的更多相关文章
- 一张图让你看懂锻压、CNC、压铸、冲压四类工艺!
(锻压+CNC+阳极.CNC+阳极.压铸+阳极.冲压+阳极手机外壳比较) 上图为一张雷达图,该图比较直观形象地描述了4大手机外壳工艺在6个维度(加工成本.CNC用量.加工周期.成品率.可设计性.外观质 ...
- 生成式AI对业务流程有哪些影响?企业如何应用生成式AI?一文看懂
集成与融合类ChatGPT工具与技术,以生成式AI变革业务流程 ChatGPT背后的生成式AI,聊聊生成式AI如何改变业务流程 ChatGPT月活用户过亿,生成式AI对组织的业务流程有哪些影响? 生成 ...
- 看懂物联网fr
看懂物联网 2015-10-11 物联网世界 1.第三次IT浪潮 互联网时代的特征是信息驱动了生产力,无论众包.订单式生产这些理论:还是B2C.O2O各类业务模式:归根结底,是信息优化了生产关 ...
- 你的计算机也可以看懂世界——十分钟跑起卷积神经网络(Windows+CPU)
众所周知,如果你想研究Deep Learning,那么比较常用的配置是Linux+GPU,不过现在很多非计算机专业的同学有时也会想采用Deep Learning方法来完成一些工作,那么Linux+GP ...
- 一张图看懂AI、机器学习和深度学习的区别
AI(人工智能)是未来,是科幻小说,是我们日常生活的一部分.所有论断都是正确的,只是要看你所谈到的AI到底是什么. 例如,当谷歌DeepMind开发的AlphaGo程序打败韩国职业围棋高手Lee Se ...
- 人工智能机器学习底层原理剖析,人造神经元,您一定能看懂,通俗解释把AI“黑话”转化为“白话文”
按照固有思维方式,人们总以为人工智能是一个莫测高深的行业,这个行业的人都是高智商人群,无论是写文章还是和人讲话,总是讳莫如深,接着就是蹦出一些"高级"词汇,什么"神经网络 ...
- 系统A一定会按照自我的样子改造世界
A一定会按照自己的样子去构建系统A1,A1一定还会按照自己的样子去构建系统A1.1,A1.1一定还是会按照自我的样子去构建A1.1.1……我们编程,我们改造世界,我们的方向是被注定要朝着构建人造人的方 ...
- 一文看懂AI芯片竞争五大维度
下一波大趋势和大红利从互联网+让位于人工智能+,已成业界共识.在AI的数据.算法和芯片之三剑客中,考虑到AI算法开源的发展趋势,数据与芯片将占据越来越重要的地位,而作为AI发展支柱的芯片更是AI业的竞 ...
- [转帖] 一文看懂:"边缘计算"究竟是什么?为何潜力无限?
一文看懂:"边缘计算"究竟是什么?为何潜力无限? 转载cnbeta 云计算 雾计算 边缘计算... 知名创投调研机构CB Insights撰文详述了边缘计算的发展和应用前景 ...
- 一文看懂web服务器、应用服务器、web容器、反向代理服务器区别与联系
我们知道,不同肤色的人外貌差别很大,而双胞胎的辨识很难.有意思的是Web服务器/Web容器/Web应用程序服务器/反向代理有点像四胞胎,在网络上经常一起出现.本文将带读者对这四个相似概念如何区分. 1 ...
随机推荐
- IvorySQL 4.0 之 Invisible Column 功能解析
前言 随着数据库应用场景的多样化,用户对数据管理的灵活性和隐私性提出了更高要求.IvorySQL 作为一款基于 PostgreSQL 并兼容 Oracle 的开源数据库,始终致力于在功能上保持领先和创 ...
- RANSAC---从直线拟合到特征匹配去噪
Ransac全称为Random Sample Consensus,随机一致性采样.该方法是一种十分高效的数据拟合方法.我们通过最简单的拟合直线任务来了解这种方法思路,继而扩展到特征点匹配中的误点剔除问 ...
- 深入浅出CPU眼中的函数调用&栈溢出攻击
深入浅出CPU眼中的函数调用--栈溢出攻击 原理解读 函数调用,大家再耳熟能详了,我们先看一个最简单的函数: #include <stdio.h> #include <stdlib. ...
- 使用自制离线数据跑通ElasticFusion
使用自制离线数据跑通ElasticFusion 实验环境及设备 实验环境: Ubuntu22.04 RTX3060 实验设备: 小米13(Android) Realsense D455 一句话总结就是 ...
- BUUCTF---萌萌哒的八戒(猪圈密码)
1. 问题 2.知识点 猪圈密码 3.解题 对应解题,套上flag{whenthepigwanttoeat}
- 正则表达式--java进阶day06
1.正则表达式 2.正则表达式的规则.使用 3.字符类讲解 如图,单独一个a满足正则表达式的规则,所以返回true 当删去[]后,正则表达式中的规则就会变为必须是abc,否则不满足条件,即使有一个a ...
- final关键字、Object类--java进阶day01
1.规则 被final修饰的变量,名称都要大写,多单词的名称则需_来分隔 1.修饰方法 method方法已经不能被重写了,因为修饰该方法的是final 2.修饰类 当一个类中所有的成员方法都不想被重写 ...
- 太赞了!两个技巧帮你记住复杂 Linux 命令!
Linux 经历这么多个年头了,其中命令越来越多,又加上参数的多种多样,就算是实打实的高手也没有十足的把握能把各种命令运用得炉火纯青,就别说那些初学者了. 面对这些复杂难记的命令,网上的一些工具如 K ...
- 《Universal Number Posit Arithmetic Generator on FPGA》(一)
A parameterized Verilog HDL is constructed for each unit which takes posit word size (N) and posit e ...
- GC垃圾收集时,居然还有用户线程在奔跑
之前面试被问到过"当GC垃圾收集时,是所有的用户线程都停止了吗?",这一篇我们来探究一下这个问题. 其实执行本地代码的线程仍然可以运行,那么这些线程一旦改变了对象中的引用关系或创建 ...