sciTech-BigDataAIML-AI 发展的"四个阶段“: "看懂世界”到“改造世界”:Perception AI → Generative AI → Agentic AI → Physical AI
sciTech-BigDataAIML:
Abbreviation(英文缩写词):
- CV( Computer Vision ) = 计算机视觉, 是 AI (人工智能) 领域的一个重要分支,
研究如何让机器“看懂”图像、视频、甚至三维世界中的内容。 - ASR( Automatic Speech Recognition ) = 自动语音识别,使机器听懂人说话,转成文本。
- OCR( Optical Character Recognition ) = 光学字符识别,使机器从图片中读出文字,看懂文字,
本质是CV(计算机视觉)的细分任务。
AI 发展"四阶段“: "看懂世界”到“改造世界”
序言
过去几年,人工智能一路飞升,从识图识声,到能写能画,再到能干活做决策,
甚至走上现实生活的“物理战场”。你是否也曾寻思,AI到底发展到哪个阶段了?
又有哪些能力正在悄悄进化?
Nvidia创始人 Jensen Huang(黄仁勋) 在 GTC 2025 提出AI 发展四个阶段。
每一阶段,都是一次技术跃迁。看完本文,你将秒懂它们的本质区别与商业机会。
今天,我们就来具体聊聊 AI 发展的 四个阶段:
Perception AI → Generative AI → Agentic AI → Physical AI
一:Perception AI: AI 看得见、听得懂、读得清
这是 AI 的“眼睛”和“耳朵”,它让机器第一次具备“理解世界”的能力。
代表能力:
- CV (图像识别):人脸识别、目标检测、安防监控
- ASR (语音识别):语音助手、电话客服
- OCR (文本识别):发票识别、合同解析
- Other: 情感分析、实体识别、关键词抽取 等
商业价值:
- 金融风控:票据识别、影像审核
- 医疗影像:病灶检测、报告辅助
- 智能硬件:智能安防摄像头、车载感知系统
Pros. & Cons.:
- Pros.: 聚焦感知能力, AI能 看(CV: 图像识别)、听(ASR: 语音识别)、读(OCR: 等基本任务) 的"感知",是AI起点。
- Cons.: 这阶段的AI虽然智能,但只能“看见”世界,无法“改变”世界。
二:Generative AI:
使 AI 能“表达”“创作”,第一次能 创意和内容输出能力.
这一时期的主角,你一定熟:ChatGPT、Midjourney、Suno(音乐生成)、Sora(视频生成) …
- 用Generative AI的能力,帮助作者创作 本文这样的科普文章
- 先提出要求给它,帮我生成初稿,
- 后反复校对修改,确保符合自己最初的意图,
- 对比以前的从零开始模式,效率上要提升很多。
- 代表能力:
Text: 生成文本:聊天、文章、摘要、代码
Graphic: 生成图像:海报设计、产品图、插画
Audio: 生成音频/音乐:AI歌手、播报配音
Fusion: 多模态融合:文字转视频、图像转语音 - 商业价值:
- Content Creation(内容创作):AI 写作、AI 配图、AI 视频
- Marketing Automation(营销自动化):文案生成、广告素材组合
- Programming Assistant(编程助手):GitHub Copilot、APEX AI Assistant
这一阶段的 AI 就像“有创造力的 Secretary(秘书)”,大大提高内容产业的效率。
三:Agentic AI(智能体AI)
真正能“接受并完成任务”的 AI 时代来了:
这阶段的 AI : 不只是工具,而是真正“可交付任务的虚拟员工”。
这一阶段就有些强大,如果 ChatGPT 比喻 “聪明的对话机”,
那么 Agentic AI 就是 你可以"交付任务"的"数字智能机器人"。
- 每个智能体都可以有 "机器智能"的"自主决策" 去"完成实际的任务",不需要 "人工干预" 就能 得到比较好的结果。
- Agentic AI Service 的 当前 "服务期等待时间" 肯定要比直接的 Generative AI (生成式AI) 要久.
因为 "Agentic AI智能体" 通常要涉及"多次的服务调用","多次的LLM模型交互", 等;
但是,很多场景下这都不是问题,人们通常可接受 "多花一些时间" 得到 "更靠谱更符合预期的结果" 。
- Agentic AI: 不仅能 "理解" 人的"需求",还能 "想办法" 去 "完成任务",比如:
- 自动拆解步骤( 先查资料 → 再写报告 → 最后发邮件 )
- 主动调用各种服务( 查天气、调用 API、执行 SQL、调用搜索引擎 )
- 多轮思考 + 状态追踪( 记住交互人的"说话记录"、"当前进度")
- 它具备哪些关键能力?(Goal->Planning->Task->Implement)
- Task( 任务 ): 理解 + 分解 + 执行
- Composition (调用外部工具,例如 API/数据库/搜索 等)
- Automatic : 多轮执行 + 上下文记忆
- Clustering: 多个智能体协作,完成复杂任务
- 举几个典型案例:
- LangChain / AutoGen 智能体:开发者用来构建能"用机器智能完成任务”的 AI 系统框架。
比如,AI能: 自动查找资料 → 汇总成报告 → 发送通知,甚至可以自己生成代码并测试运行。 - Business App.: AI Copilot:如 Microsoft 365 Copilot,自动总结会议纪要、发邮件、安排日程
- Workflow Automation Augment(流程自动化增强):AI 自动办公机器人: 登录 OA 系统 → 审批报销 → 通知员工
- LangChain / AutoGen 智能体:开发者用来构建能"用机器智能完成任务”的 AI 系统框架。
- 商业价值:
- 数字化办公助理:帮你整理文件、写文案、收集信息
- 智能客服和运营:根据用户对话自动查询订单、推荐商品
- 业务流程自动化:用 AI 替代重复点击和操作,提高效率
四:Physical AI(实体型AI)
AI 开始进入人类的"社会生活”,从"数字世界"走向"现实人类世界"!
我们正处在从 Agentic AI 向 Physical AI 过渡的早期阶段。
- "模仿"出"人类的部分能力" : 这是 "AI能力" 在现实 "人类世界" 的体现。
感知(眼耳鼻舌等) -> 决策(类人脑的机器智能) -> 执行(动力、机械和电气化) -> 能"完成任务" 行动改变人类世界。 - 不是所有机器人都叫 Physical AI:
传统设备(如老式扫地机器人、机械臂) 只是 “预设程序驱动”的自动化产物。
真正的 Physical AI 是开始 有「感知→决策→执行」闭环 的设备(如 Tesla FSD、Atlas), 它们必须有:- 感知:能看到环境(如识别宠物/人)
- 表达:能用语音、图像反馈清扫状态
- 决策:能自主判断、规划任务(如动态避障)
- 执行:能越障、能动态适配环境
- 商业价值:
- 仓储自动化、柔性生产
- 生活服务机器人(陪护/清洁/配送)
- 实体场景劳动力替代:物流/酒店/医疗操作
这一阶段的 AI,不仅能想,还能做,甚至能替代人类“社会劳动”。
编者注:
这一阶段就更加神奇,
注意,即便是这里提到的所谓新一代Tesla FSD等代表形态,也只是为使大家更好理解,
只能算是Physical AI前期尝试的一个例子。
真正的Physical AI 时代,机器不但可以在物理世界行动,
还能够深入理解环境的 摩擦、惯性、因果关系、物体恒存等,
未来,在一些方面甚至可能要比人类理解的更加深入和透彻。
届时会出现各种各样的机器人等实体应用。
总结:AI 四阶段的能力演进图
阶段 | 关键词 | 核心能力 | 典型设备 | 商业价值 |
---|---|---|---|---|
Perception AI 感知理解 | 识别图像/语音/文本 | 监控摄像头 | 安防监控、医疗影像辅助 | |
Generative AI | 表达创作 | 生成文本/图像/音频 | ChatGPT | 内容创作、营销自动化 |
Agentic AI | 自主执行 | 拆任务/调工具/记状态 | AI办公助手 | 智能流程自动化 |
Physical AI | 实体行动 | 控制物理设备与环境 | AI机器人 | 智能制造、无人服务终端 |
为什么要了解这个框架?
- 产品经理 → 定位产品阶段,定义能力边界与商业模式
- 技术专家 → 理解LLM+多模态+Agent+机器人融合路径
- 行业用户 → 预判哪些“智能能力”将重塑生产力
最后:你准备好迎接 Agentic 和 Physical AI 时代开启?
政策、资本、行业垄断力量 在对 "人类认知" 导向。
未来几年的 AI 创新,正处于 Agentic(第3阶段) 往 Physical(第4阶段) 升级的临界点。
机器人基础模型、人形机器人等突破正加速到来!
sciTech-BigDataAIML-AI 发展的"四个阶段“: "看懂世界”到“改造世界”:Perception AI → Generative AI → Agentic AI → Physical AI的更多相关文章
- [转载]DevOps发展的四个重要阶段
DevOps是敏捷开发的延续,它将敏捷的精神延伸至IT运营(IT Operation)阶段.敏捷开发的主要目的是响应变化,快速交付价值.以2001年的敏捷宣言发布这个里程碑为起点,开始几年内企业主要在 ...
- IT编年史 技术生命周期起步,成长,成熟和衰退四个阶段 IT历史总结
IT编年史 最近查看了大量的正史或者野史,体会了整个IT夜发展的风气云涌,颇为激动,撰写如下. 感谢google黑板报的浪潮之巅http://googlechinablog.com/2007/07/a ...
- PHP四个阶段目标以及第一阶段学习内容
PHP课程体系主要分为四个阶段,第一阶段讲的是网页HTML和数据库MySQL,第一阶段要学会网页制作的基础知识,熟用各种基本标签,对数据库进行操作,各项考核都能够达标,拿出出众的项目展示. 在第二个阶 ...
- gcc编译的四个阶段:预处理,编译,汇编,链接
1:gcc编译的四个阶段:预处理,编译,汇编,链接 #vi file.c #gcc -E file.c -o file.i//-E查看且预处理后停止编译,-o生成目标文件,-i表示已预处理 #gcc ...
- 突破这个四个阶段年薪没有50W,还好意思说是搞Java的?
该视频教程总共分为四个阶段来学习.逐步进阶,并且还会不定期更新.我简介一下每一个阶段的视频资源,学习顺序不分先后. 第一阶段 第一阶段主要从 svn/git 版本号控制.Java高并发.JVM虚拟机. ...
- Linux 运维工程师学习成长路线上要经历哪四个阶段?
之前曾看到一篇新闻,Linux之父建议大家找一份基于Linux和开源环境的工作.今天就来聊一聊我的想法,本人8年Linux运维一线经验,呆过很多互联网公司,从一线运维做到运维架构师一职,也见证了中国运 ...
- Web前端开发的四个阶段(小白必看)
第一阶段:HTML的学习 超文本标记语言(HyperText Mark-up Language 简称HTML)是一个网页的骨架,无论是静态网页还是动态网页,最终返回到浏览器端的都是HTML代码,浏览器 ...
- 贾扬清谈大数据&AI发展的新挑战和新机遇
摘要:2019云栖大会大数据&AI专场,阿里巴巴高级研究员贾扬清为我们带来<大数据AI发展的新机遇和新挑战>的分享.本文主要从人工智能的概念开始讲起,谈及了深度学习的发展和模型训练 ...
- linux之DHCP服务端搭建 ( ip分配 四个阶段原理)
DHCP服务 ip分配 四个阶段原理 1.DHCP服务目的 协议 作用 租约 原理四个阶段 动态主机配置协议(Dynamic Host Configuration Protocol,动态主机配置协议) ...
- 分四个阶段学习python并找到一份好工作
第一阶段 关注公众号"轻松学编程"了解更多. 详细学习资料 需要时间一个月. 1.python概念 python是一种解释型.面向对象.动态数据类型的高级程序语言. 理解: ...
随机推荐
- 基于CARLA与PyTorch的自动驾驶仿真系统全栈开发指南
引言:自动驾驶仿真的价值与技术栈选择 自动驾驶作为AI领域最具挑战性的研究方向之一,其开发流程需要经历"仿真测试-闭环验证-实车部署"的完整链路.其中,高保真仿真平台为算法迭代提供 ...
- the server time zone value ‘�й���ʱ��‘ is unrecognized or represents more than one time zone.
分析:数据库和系统时区差异造成 解决:在jdbc连接的url后面加上 &serverTimezone=GMT
- git提示:There is no tracking information for the current branch
问题 使用git pull拉取远程分支代码的时候,提示: > There is no tracking information for the current branch. Please sp ...
- CAN304 W1
CAN304 W1 Definition The protection afforded to an automated information system in order to attain t ...
- SenseVoice部署,并调用api接口
目录 安装Python 代码下载 虚拟环境 安装依赖 下载模型 修改启用webui.py 启用api.py 安装Python 这个网上找下教程安装下就可以,版本应该没有什么要求,我装的是3.10.7 ...
- [深度学习] 超长文,一篇讲完 NVIDIA Jetson Hello AI World 全部教程(推理 & 训练)
目录 一.开始 1.1 安装 1.2 sdkmanger 细节介绍 1.2.1 host 和 target 配合 1.2.2 Jetson SDK Components 介绍 二.Hello AI W ...
- Linux开放防火墙指定端口
方法一 开启8011端口 /sbin/iptables -I INPUT -p tcp --dport 8011 -j ACCEPT 保存配置 /etc/rc.d/init.d/iptables sa ...
- Blazor学习之旅(11)简易SignalR聊天室
大家好,我是Edison. 很久没有更新Blazor这个系列了,在上一篇我们学习了如何实现多语言和本地化,这一篇我们了解下Blazor+SignalR结合. 什么是SignalR? ASP.NET C ...
- 从被喷“假开源”到登顶 GitHub 热榜,这个开源项目上演王者归来!
故事的序幕,在 2024 年 1 月的 GitHub 上悄然拉开. 当时,一个名为 RustFS 的开源项目横空出世,号称要做一个基于 Rust 的企业级分布式存储系统,旨在成为 MinIO 的一个开 ...
- PLC通过lora网关采集温室大棚温湿度数据
概述: 运用lora网关远程控制大棚内风机,日光灯,温湿度传感器等设备.可以实现远程获取现场环境的空气温湿度.土壤水分温度.二氧化碳浓度.光照强度可以自动控制温室湿帘风机.喷淋滴灌.加温补光等设备,并 ...