sciTech-BigDataAIML:

Abbreviation(英文缩写词):

  • CV( Computer Vision ) = 计算机视觉, 是 AI (人工智能) 领域的一个重要分支,

    研究如何让机器“看懂”图像、视频、甚至三维世界中的内容。
  • ASR( Automatic Speech Recognition ) = 自动语音识别,使机器听懂人说话,转成文本。
  • OCR( Optical Character Recognition ) = 光学字符识别,使机器从图片中读出文字,看懂文字,

    本质是CV(计算机视觉)的细分任务。

AI 发展"四阶段“: "看懂世界”到“改造世界”

序言

过去几年,人工智能一路飞升,从识图识声,到能写能画,再到能干活做决策,

甚至走上现实生活的“物理战场”。你是否也曾寻思,AI到底发展到哪个阶段了?

又有哪些能力正在悄悄进化?

Nvidia创始人 Jensen Huang(黄仁勋) 在 GTC 2025 提出AI 发展四个阶段。

每一阶段,都是一次技术跃迁。看完本文,你将秒懂它们的本质区别与商业机会。

今天,我们就来具体聊聊 AI 发展的 四个阶段:

Perception AI → Generative AI → Agentic AI → Physical AI

一:Perception AI: AI 看得见、听得懂、读得清

这是 AI 的“眼睛”和“耳朵”,它让机器第一次具备“理解世界”的能力。

  • 代表能力:

    • CV (图像识别):人脸识别、目标检测、安防监控
    • ASR (语音识别):语音助手、电话客服
    • OCR (文本识别):发票识别、合同解析
    • Other: 情感分析、实体识别、关键词抽取 等
  • 商业价值:

    • 金融风控:票据识别、影像审核
    • 医疗影像:病灶检测、报告辅助
    • 智能硬件:智能安防摄像头、车载感知系统
  • Pros. & Cons.:

    • Pros.: 聚焦感知能力, AI能 看(CV: 图像识别)、听(ASR: 语音识别)、读(OCR: 等基本任务) 的"感知",是AI起点。
    • Cons.: 这阶段的AI虽然智能,但只能“看见”世界,无法“改变”世界。

二:Generative AI:

使 AI 能“表达”“创作”,第一次能 创意和内容输出能力.

这一时期的主角,你一定熟:ChatGPT、Midjourney、Suno(音乐生成)、Sora(视频生成) …

  • 用Generative AI的能力,帮助作者创作 本文这样的科普文章

    • 先提出要求给它,帮我生成初稿,
    • 后反复校对修改,确保符合自己最初的意图,
    • 对比以前的从零开始模式,效率上要提升很多。
  • 代表能力:

    Text: 生成文本:聊天、文章、摘要、代码

    Graphic: 生成图像:海报设计、产品图、插画

    Audio: 生成音频/音乐:AI歌手、播报配音

    Fusion: 多模态融合:文字转视频、图像转语音
  • 商业价值:
    • Content Creation(内容创作):AI 写作、AI 配图、AI 视频
    • Marketing Automation(营销自动化):文案生成、广告素材组合
    • Programming Assistant(编程助手):GitHub Copilot、APEX AI Assistant

这一阶段的 AI 就像“有创造力的 Secretary(秘书)”,大大提高内容产业的效率。

三:Agentic AI(智能体AI)

真正能“接受并完成任务”的 AI 时代来了:

这阶段的 AI : 不只是工具,而是真正“可交付任务的虚拟员工”。

这一阶段就有些强大,如果 ChatGPT 比喻 “聪明的对话机”,

那么 Agentic AI 就是 你可以"交付任务"的"数字智能机器人"。

  • 每个智能体都可以有 "机器智能"的"自主决策" 去"完成实际的任务",不需要 "人工干预" 就能 得到比较好的结果。
  • Agentic AI Service 的 当前 "服务期等待时间" 肯定要比直接的 Generative AI (生成式AI) 要久.

    因为 "Agentic AI智能体" 通常要涉及"多次的服务调用","多次的LLM模型交互", 等;

    但是,很多场景下这都不是问题,人们通常可接受 "多花一些时间" 得到 "更靠谱更符合预期的结果" 。
  1. Agentic AI: 不仅能 "理解" 人的"需求",还能 "想办法" 去 "完成任务",比如:

    • 自动拆解步骤( 先查资料 → 再写报告 → 最后发邮件 )
    • 主动调用各种服务( 查天气、调用 API、执行 SQL、调用搜索引擎 )
    • 多轮思考 + 状态追踪( 记住交互人的"说话记录"、"当前进度")
  2. 它具备哪些关键能力?(Goal->Planning->Task->Implement)
    • Task( 任务 ): 理解 + 分解 + 执行
    • Composition (调用外部工具,例如 API/数据库/搜索 等)
    • Automatic : 多轮执行 + 上下文记忆
    • Clustering: 多个智能体协作,完成复杂任务
  3. 举几个典型案例:
    • LangChain / AutoGen 智能体:开发者用来构建能"用机器智能完成任务”的 AI 系统框架。

      比如,AI能: 自动查找资料 → 汇总成报告 → 发送通知,甚至可以自己生成代码并测试运行。
    • Business App.: AI Copilot:如 Microsoft 365 Copilot,自动总结会议纪要、发邮件、安排日程
    • Workflow Automation Augment(流程自动化增强):AI 自动办公机器人: 登录 OA 系统 → 审批报销 → 通知员工
  4. 商业价值:
    • 数字化办公助理:帮你整理文件、写文案、收集信息
    • 智能客服和运营:根据用户对话自动查询订单、推荐商品
    • 业务流程自动化:用 AI 替代重复点击和操作,提高效率

四:Physical AI(实体型AI)

AI 开始进入人类的"社会生活”,从"数字世界"走向"现实人类世界"!

我们正处在从 Agentic AI 向 Physical AI 过渡的早期阶段。

  • "模仿"出"人类的部分能力" : 这是 "AI能力" 在现实 "人类世界" 的体现。

    感知(眼耳鼻舌等) -> 决策(类人脑的机器智能) -> 执行(动力、机械和电气化) -> 能"完成任务" 行动改变人类世界。
  • 不是所有机器人都叫 Physical AI:

    传统设备(如老式扫地机器人、机械臂) 只是 “预设程序驱动”的自动化产物

    真正的 Physical AI 是开始 有「感知→决策→执行」闭环 的设备(如 Tesla FSD、Atlas), 它们必须有:

    • 感知:能看到环境(如识别宠物/人)
    • 表达:能用语音、图像反馈清扫状态
    • 决策:能自主判断、规划任务(如动态避障)
    • 执行:能越障、能动态适配环境
  • 商业价值:
    • 仓储自动化、柔性生产
    • 生活服务机器人(陪护/清洁/配送)
    • 实体场景劳动力替代:物流/酒店/医疗操作

这一阶段的 AI,不仅能想,还能做,甚至能替代人类“社会劳动”。

编者注:

这一阶段就更加神奇,

注意,即便是这里提到的所谓新一代Tesla FSD等代表形态,也只是为使大家更好理解,

只能算是Physical AI前期尝试的一个例子。

真正的Physical AI 时代,机器不但可以在物理世界行动,

还能够深入理解环境的 摩擦、惯性、因果关系、物体恒存等,

未来,在一些方面甚至可能要比人类理解的更加深入和透彻。

届时会出现各种各样的机器人等实体应用。

总结:AI 四阶段的能力演进图

阶段 关键词 核心能力 典型设备 商业价值
Perception AI 感知理解 识别图像/语音/文本 监控摄像头 安防监控、医疗影像辅助
Generative AI 表达创作 生成文本/图像/音频 ChatGPT 内容创作、营销自动化
Agentic AI 自主执行 拆任务/调工具/记状态 AI办公助手 智能流程自动化
Physical AI 实体行动 控制物理设备与环境 AI机器人 智能制造、无人服务终端

为什么要了解这个框架?

  • 产品经理 → 定位产品阶段,定义能力边界与商业模式
  • 技术专家 → 理解LLM+多模态+Agent+机器人融合路径
  • 行业用户 → 预判哪些“智能能力”将重塑生产力

最后:你准备好迎接 Agentic 和 Physical AI 时代开启?

政策、资本、行业垄断力量 在对 "人类认知" 导向。

未来几年的 AI 创新,正处于 Agentic(第3阶段) 往 Physical(第4阶段) 升级的临界点。

机器人基础模型、人形机器人等突破正加速到来!

sciTech-BigDataAIML-AI 发展的"四个阶段“: "看懂世界”到“改造世界”:Perception AI → Generative AI → Agentic AI → Physical AI的更多相关文章

  1. [转载]DevOps发展的四个重要阶段

    DevOps是敏捷开发的延续,它将敏捷的精神延伸至IT运营(IT Operation)阶段.敏捷开发的主要目的是响应变化,快速交付价值.以2001年的敏捷宣言发布这个里程碑为起点,开始几年内企业主要在 ...

  2. IT编年史 技术生命周期起步,成长,成熟和衰退四个阶段 IT历史总结

    IT编年史 最近查看了大量的正史或者野史,体会了整个IT夜发展的风气云涌,颇为激动,撰写如下. 感谢google黑板报的浪潮之巅http://googlechinablog.com/2007/07/a ...

  3. PHP四个阶段目标以及第一阶段学习内容

    PHP课程体系主要分为四个阶段,第一阶段讲的是网页HTML和数据库MySQL,第一阶段要学会网页制作的基础知识,熟用各种基本标签,对数据库进行操作,各项考核都能够达标,拿出出众的项目展示. 在第二个阶 ...

  4. gcc编译的四个阶段:预处理,编译,汇编,链接

    1:gcc编译的四个阶段:预处理,编译,汇编,链接 #vi file.c #gcc -E file.c -o file.i//-E查看且预处理后停止编译,-o生成目标文件,-i表示已预处理 #gcc  ...

  5. 突破这个四个阶段年薪没有50W,还好意思说是搞Java的?

    该视频教程总共分为四个阶段来学习.逐步进阶,并且还会不定期更新.我简介一下每一个阶段的视频资源,学习顺序不分先后. 第一阶段 第一阶段主要从 svn/git 版本号控制.Java高并发.JVM虚拟机. ...

  6. Linux 运维工程师学习成长路线上要经历哪四个阶段?

    之前曾看到一篇新闻,Linux之父建议大家找一份基于Linux和开源环境的工作.今天就来聊一聊我的想法,本人8年Linux运维一线经验,呆过很多互联网公司,从一线运维做到运维架构师一职,也见证了中国运 ...

  7. Web前端开发的四个阶段(小白必看)

    第一阶段:HTML的学习 超文本标记语言(HyperText Mark-up Language 简称HTML)是一个网页的骨架,无论是静态网页还是动态网页,最终返回到浏览器端的都是HTML代码,浏览器 ...

  8. 贾扬清谈大数据&AI发展的新挑战和新机遇

    摘要:2019云栖大会大数据&AI专场,阿里巴巴高级研究员贾扬清为我们带来<大数据AI发展的新机遇和新挑战>的分享.本文主要从人工智能的概念开始讲起,谈及了深度学习的发展和模型训练 ...

  9. linux之DHCP服务端搭建 ( ip分配 四个阶段原理)

    DHCP服务 ip分配 四个阶段原理 1.DHCP服务目的 协议 作用 租约 原理四个阶段 动态主机配置协议(Dynamic Host Configuration Protocol,动态主机配置协议) ...

  10. 分四个阶段学习python并找到一份好工作

    第一阶段 关注公众号"轻松学编程"了解更多. 详细学习资料 需要时间一个月. 1.python概念 ​ python是一种解释型.面向对象.动态数据类型的高级程序语言. ​ 理解: ...

随机推荐

  1. Python3 GUI界面

    一.python gui(图形化)模块介绍: Tkinter :是python最简单的图形化模块,总共只有14种组建 Pyqt :是python最复杂也是使用最广泛的图形化 Wx :是python当中 ...

  2. Maven版本号管理规范:为何父POM是统一依赖版本的最佳实践?

    结论先行 在Maven多模块项目中,依赖的版本号应集中定义在父POM的<dependencyManagement>中,子模块通过继承父POM来引用版本号,通常无需在子POM中重复声明.这能 ...

  3. MIUI系统,APKMirror Installer安装apkm的时候提示app installation failed Installation aborted解决方案

    场景 我的手机是MIUI系统,通过APKMirror Installer安装apkm的时候提示app installation failed Installation aborted. 本来不想装了, ...

  4. UnoCSS原子CSS引擎

    UnoCSS是一款原子化的即时按需 CSS 引擎,其中没有核心实用程序,所有功能都是通过预设提供的.默认情况下UnoCSS应用通过预设来实现相关功能. UnoCSS中文文档: https://www. ...

  5. 回顾-生成 vs 判别模型-和图

    直觉认识 生成模型, 通过训练的模型, 可以求出 p(x|y), 即生成模型的本质是通过旧样本->模型 -> 新样本, 通过某种概率分布, 能自己生成样本, 这很厉害的. 判别模型, 就咱 ...

  6. 【工程应用十】 基于Hessian矩阵的Frangi滤波算法 == 血管图像增强 == Matlab中fibermetric函数的自我实现、加速和优化。

    前几天在翻一翻matlab中的帮助文档,无意中发现一个叫fibermetric的图像处理函数,感觉有点意思,可以增强或者说突出一些类似于管状的对象,后面看了下算法的帮助文档,在百度上找了找,原来这也是 ...

  7. Go语言自定义类型

    Go语言与C/C++类似,C++可通过typedef关键字自定义数据类型(别名.定义结构体等),Go语言则通过type关键字可实现自定义类型的实现 1.自定义类型格式 用户自定义类型使用type,其语 ...

  8. Beautiful code and beautiful life

    You may ask me why do i strive constantly, what i am striving for? Yep, the same question haunts me ...

  9. codeup之Day of Week(给定日期判断周几

    题目描述 We now use the Gregorian style of dating in Russia. The leap years are years with number divisi ...

  10. 解密prompt系列54.Context Cache代码示例和原理分析

    Context Cache的使用几乎已经是行业共识,目标是优化大模型首Token的推理延时,在多轮对话,超长System Prompt,超长结构化JSON和Few-shot等应用场景,是不可或缺的.这 ...