sciTech-BigDataAIML：

Abbreviation(英文缩写词)：

CV( Computer Vision ) = 计算机视觉，是 AI (人工智能) 领域的一个重要分支，

研究如何让机器“看懂”图像、视频、甚至三维世界中的内容。
ASR( Automatic Speech Recognition ) = 自动语音识别，使机器听懂人说话，转成文本。
OCR( Optical Character Recognition ) = 光学字符识别，使机器从图片中读出文字，看懂文字，

本质是CV（计算机视觉）的细分任务。

AI 发展"四阶段“: "看懂世界”到“改造世界”

序言

过去几年，人工智能一路飞升，从识图识声，到能写能画，再到能干活做决策，

甚至走上现实生活的“物理战场”。你是否也曾寻思，AI到底发展到哪个阶段了？

又有哪些能力正在悄悄进化？

Nvidia创始人 Jensen Huang(黄仁勋) 在 GTC 2025 提出AI 发展四个阶段。

每一阶段，都是一次技术跃迁。看完本文，你将秒懂它们的本质区别与商业机会。

今天，我们就来具体聊聊 AI 发展的四个阶段：

Perception AI → Generative AI → Agentic AI → Physical AI

一：Perception AI: AI 看得见、听得懂、读得清

这是 AI 的“眼睛”和“耳朵”，它让机器第一次具备“理解世界”的能力。

代表能力：
- CV (图像识别)：人脸识别、目标检测、安防监控
- ASR (语音识别）：语音助手、电话客服
- OCR (文本识别）：发票识别、合同解析
- Other: 情感分析、实体识别、关键词抽取等
商业价值：
- 金融风控：票据识别、影像审核
- 医疗影像：病灶检测、报告辅助
- 智能硬件：智能安防摄像头、车载感知系统
Pros. & Cons.：
- Pros.: 聚焦感知能力, AI能看(CV: 图像识别)、听(ASR: 语音识别)、读(OCR: 等基本任务) 的"感知"，是AI起点。
- Cons.: 这阶段的AI虽然智能，但只能“看见”世界，无法“改变”世界。

二：Generative AI:

使 AI 能“表达”“创作”，第一次能创意和内容输出能力.

这一时期的主角，你一定熟：ChatGPT、Midjourney、Suno(音乐生成)、Sora(视频生成) …

用Generative AI的能力，帮助作者创作本文这样的科普文章
- 先提出要求给它，帮我生成初稿，
- 后反复校对修改，确保符合自己最初的意图，
- 对比以前的从零开始模式，效率上要提升很多。
代表能力：

Text: 生成文本：聊天、文章、摘要、代码

Graphic: 生成图像：海报设计、产品图、插画

Audio: 生成音频/音乐：AI歌手、播报配音

Fusion: 多模态融合：文字转视频、图像转语音
商业价值：
- Content Creation(内容创作)：AI 写作、AI 配图、AI 视频
- Marketing Automation(营销自动化)：文案生成、广告素材组合
- Programming Assistant(编程助手)：GitHub Copilot、APEX AI Assistant

这一阶段的 AI 就像“有创造力的 Secretary(秘书)”，大大提高内容产业的效率。

三：Agentic AI(智能体AI)

真正能“接受并完成任务”的 AI 时代来了:

这阶段的 AI : 不只是工具，而是真正“可交付任务的虚拟员工”。

这一阶段就有些强大，如果 ChatGPT 比喻 “聪明的对话机”，

那么 Agentic AI 就是你可以"交付任务"的"数字智能机器人"。

每个智能体都可以有 "机器智能"的"自主决策" 去"完成实际的任务"，不需要 "人工干预" 就能得到比较好的结果。
Agentic AI Service 的当前 "服务期等待时间" 肯定要比直接的 Generative AI (生成式AI) 要久.

因为 "Agentic AI智能体" 通常要涉及"多次的服务调用"，"多次的LLM模型交互", 等;

但是，很多场景下这都不是问题，人们通常可接受 "多花一些时间" 得到 "更靠谱更符合预期的结果" 。

Agentic AI: 不仅能 "理解" 人的"需求"，还能 "想办法" 去 "完成任务"，比如：
- 自动拆解步骤( 先查资料 → 再写报告 → 最后发邮件 )
- 主动调用各种服务( 查天气、调用 API、执行 SQL、调用搜索引擎 )
- 多轮思考 + 状态追踪( 记住交互人的"说话记录"、"当前进度"）
它具备哪些关键能力？（Goal->Planning->Task->Implement）
- Task( 任务 ): 理解 + 分解 + 执行
- Composition (调用外部工具，例如 API/数据库/搜索等）
- Automatic : 多轮执行 + 上下文记忆
- Clustering: 多个智能体协作，完成复杂任务
举几个典型案例：
- LangChain / AutoGen 智能体：开发者用来构建能"用机器智能完成任务”的 AI 系统框架。
  
  比如，AI能: 自动查找资料 → 汇总成报告 → 发送通知，甚至可以自己生成代码并测试运行。
- Business App.: AI Copilot：如 Microsoft 365 Copilot，自动总结会议纪要、发邮件、安排日程
- Workflow Automation Augment(流程自动化增强)：AI 自动办公机器人: 登录 OA 系统 → 审批报销 → 通知员工
商业价值：
- 数字化办公助理：帮你整理文件、写文案、收集信息
- 智能客服和运营：根据用户对话自动查询订单、推荐商品
- 业务流程自动化：用 AI 替代重复点击和操作，提高效率

四：Physical AI(实体型AI)

AI 开始进入人类的"社会生活”，从"数字世界"走向"现实人类世界"！

我们正处在从 Agentic AI 向 Physical AI 过渡的早期阶段。

"模仿"出"人类的部分能力" : 这是 "AI能力" 在现实 "人类世界" 的体现。

感知(眼耳鼻舌等) -> 决策(类人脑的机器智能) -> 执行(动力、机械和电气化) -> 能"完成任务" 行动改变人类世界。
不是所有机器人都叫 Physical AI:

传统设备(如老式扫地机器人、机械臂) 只是 “预设程序驱动”的自动化产物。

真正的 Physical AI 是开始 有「感知→决策→执行」闭环 的设备(如 Tesla FSD、Atlas), 它们必须有：
- 感知：能看到环境（如识别宠物/人）
- 表达：能用语音、图像反馈清扫状态
- 决策：能自主判断、规划任务（如动态避障）
- 执行：能越障、能动态适配环境
商业价值：
- 仓储自动化、柔性生产
- 生活服务机器人（陪护/清洁/配送）
- 实体场景劳动力替代：物流/酒店/医疗操作

这一阶段的 AI，不仅能想，还能做，甚至能替代人类“社会劳动”。

编者注：

这一阶段就更加神奇，

注意，即便是这里提到的所谓新一代Tesla FSD等代表形态，也只是为使大家更好理解，

只能算是Physical AI前期尝试的一个例子。

真正的Physical AI 时代，机器不但可以在物理世界行动，

还能够深入理解环境的摩擦、惯性、因果关系、物体恒存等，

未来，在一些方面甚至可能要比人类理解的更加深入和透彻。

届时会出现各种各样的机器人等实体应用。

总结：AI 四阶段的能力演进图

阶段	关键词	核心能力	典型设备	商业价值
Perception AI 感知理解	识别图像/语音/文本	监控摄像头	安防监控、医疗影像辅助
Generative AI	表达创作	生成文本/图像/音频	ChatGPT	内容创作、营销自动化
Agentic AI	自主执行	拆任务/调工具/记状态	AI办公助手	智能流程自动化
Physical AI	实体行动	控制物理设备与环境	AI机器人	智能制造、无人服务终端

为什么要了解这个框架？

产品经理 → 定位产品阶段，定义能力边界与商业模式
技术专家 → 理解LLM+多模态+Agent+机器人融合路径
行业用户 → 预判哪些“智能能力”将重塑生产力

最后：你准备好迎接 Agentic 和 Physical AI 时代开启？

政策、资本、行业垄断力量在对 "人类认知" 导向。

未来几年的 AI 创新，正处于 Agentic(第3阶段) 往 Physical(第4阶段) 升级的临界点。

机器人基础模型、人形机器人等突破正加速到来！

sciTech-BigDataAIML-AI 发展的"四个阶段“: "看懂世界”到“改造世界”:Perception AI → Generative AI → Agentic AI → Physical AI的更多相关文章

[转载]DevOps发展的四个重要阶段
DevOps是敏捷开发的延续,它将敏捷的精神延伸至IT运营(IT Operation)阶段.敏捷开发的主要目的是响应变化,快速交付价值.以2001年的敏捷宣言发布这个里程碑为起点,开始几年内企业主要在 ...
IT编年史技术生命周期起步，成长，成熟和衰退四个阶段 IT历史总结
IT编年史最近查看了大量的正史或者野史,体会了整个IT夜发展的风气云涌,颇为激动,撰写如下. 感谢google黑板报的浪潮之巅http://googlechinablog.com/2007/07/a ...
PHP四个阶段目标以及第一阶段学习内容
PHP课程体系主要分为四个阶段,第一阶段讲的是网页HTML和数据库MySQL,第一阶段要学会网页制作的基础知识,熟用各种基本标签,对数据库进行操作,各项考核都能够达标,拿出出众的项目展示. 在第二个阶 ...
gcc编译的四个阶段：预处理，编译，汇编，链接
1:gcc编译的四个阶段:预处理,编译,汇编,链接 #vi file.c #gcc -E file.c -o file.i//-E查看且预处理后停止编译,-o生成目标文件,-i表示已预处理 #gcc ...
突破这个四个阶段年薪没有50W，还好意思说是搞Java的？
该视频教程总共分为四个阶段来学习.逐步进阶,并且还会不定期更新.我简介一下每一个阶段的视频资源,学习顺序不分先后. 第一阶段第一阶段主要从 svn/git 版本号控制.Java高并发.JVM虚拟机. ...
Linux 运维工程师学习成长路线上要经历哪四个阶段？
之前曾看到一篇新闻,Linux之父建议大家找一份基于Linux和开源环境的工作.今天就来聊一聊我的想法,本人8年Linux运维一线经验,呆过很多互联网公司,从一线运维做到运维架构师一职,也见证了中国运 ...
Web前端开发的四个阶段（小白必看）
第一阶段:HTML的学习超文本标记语言(HyperText Mark-up Language 简称HTML)是一个网页的骨架,无论是静态网页还是动态网页,最终返回到浏览器端的都是HTML代码,浏览器 ...
贾扬清谈大数据&AI发展的新挑战和新机遇
摘要:2019云栖大会大数据&AI专场,阿里巴巴高级研究员贾扬清为我们带来<大数据AI发展的新机遇和新挑战>的分享.本文主要从人工智能的概念开始讲起,谈及了深度学习的发展和模型训练 ...
linux之DHCP服务端搭建 ( ip分配四个阶段原理)
DHCP服务 ip分配四个阶段原理 1.DHCP服务目的协议作用租约原理四个阶段动态主机配置协议(Dynamic Host Configuration Protocol,动态主机配置协议) ...
分四个阶段学习python并找到一份好工作
第一阶段关注公众号"轻松学编程"了解更多. 详细学习资料需要时间一个月. 1.python概念 python是一种解释型.面向对象.动态数据类型的高级程序语言. 理解: ...

随机推荐

题解：AT_arc173_a [ARC173A] Neq Number
简单二分. 思路数位 dp 预处理和判断. init 预处理出 dp 数组,与 windy 数大致相同. 二分答案,如果 111 至 midmidmid 的 Neq 数数量大于等于 kkk,rt=m ...
解决 podman 容器无法在宿主机和容器内部相互访问问题的记录
解决 podman 容器无法在宿主机和容器内部相互访问问题的记录近期在使用 podman 时,遇到了容器无法在宿主机和容器内部相互访问的问题.经过一番探索,参考了这篇文章,成功解决了该问题.在此,我 ...
P2779 [AHOI2016初中组] 黑白序列题解
题意: 小可可准备了一个未完成的黑白序列,用 B 和 W 表示黑色和白色,用 ? 表示尚未确定. 他希望知道一共有多少种不同的方法,在决定了每一个 ? 位置的颜色后可以得到一个小雪喜欢的黑白序列. 其 ...
HMM (隐马尔可夫) 推导 (下) - 参数估计 (EM)
HMM (隐马尔可夫) 推导 (下) - 参数估计 (EM) 回顾 HMM 上篇介绍了HMM这样的一种时序类模型, 即描述了一些观测现象的产生, 是由我们很难观测到的 "隐变量因子" ...
【.NET必读】RabbitMQ 4.0+重大变更！C#开发者必须掌握的6大升级要点
RabbitMQ 作为一款广受欢迎的消息队列中间件,近年来从 3.x 版本升级到 4.0+,带来了显著的功能增强和架构调整.与此同时,其官方 C# 客户端也从 6.x 版本跃升至 7.0,引入了全新的 ...
网络编程：poll
原理和select类似,只是描述fd集合的方式不同,poll使用pollfd结构而非select的fd_set结构. 管理多个描述符也是进行轮询,根据描述符的状态进行处理,但poll没有最大文件描述 ...
System.Drawing.Point与System.Windows.Point的异同
在C#中,System.Drawing.Point 和 System.Windows.Point 是两个不同的结构,分别属于不同的命名空间,用于表示二维平面中的点.尽管它们的功能相似,但在使用场景和实 ...
B1092 最好吃的月饼
描述月饼是久负盛名的中国传统糕点之一,自唐朝以来,已经发展出几百品种. 若想评比出一种"最好吃"的月饼,那势必在吃货界引发一场腥风血雨-- 在这里我们用数字说话,给出全国各地各种 ...
Java从小白到老白⑥
一. 1.抽象类vs接口相同两者都不能实例化,不能new操作不同抽象类abstract 接口interface 抽象类可以用部分方法实现接口所有方法不能有实现一个类只能继承(extends ...
odoo15里面密码与附件加密方式
一.odoo里面用户设置的密码加密方式加密是用[Passlib生成的PBKDF2 SHA512哈希] 加密后位数是128位 ` def _set_password(self): ctx = self ...

sciTech-BigDataAIML-AI 发展的"四个阶段“: "看懂世界”到“改造世界”:Perception AI → Generative AI → Agentic AI → Physical AI