智能Agent如何改造传统工作流:从搜索到全能助手

引言:当AI遇上工作流

还记得我们以前搜索信息的方式吗?输入关键词,浏览大量结果,筛选有用内容,再整合成我们需要的答案。这个过程不仅耗时,还常常让人感到疲惫。

如今,智能Agent的出现正在彻底改变这一切。想象一下,你只需提出一个问题:"北京今年什么时候入秋,哪里是赏秋的最佳去处?什么时候去最合适?", AI就能直接给你一个完整、准确的答案,甚至还能根据你的后续问题深入解释 。这就是Agent赋能工作流的魅力所在。

本文将用通俗易懂的语言,带你了解智能Agent如何改造传统工作流,让AI真正成为你的得力助手。

什么是Agent?为什么它能改变工作方式?

简单来说,Agent就是一个能够理解你的需求,并自主调用各种工具来完成任务的AI助手。它不仅能理解你的问题,还能规划解决方案,调用合适的工具,最后整合结果呈现给你。

传统AI只能回答问题,而Agent则可以"行动" ——它能搜索网络、生成图片、编写代码、分析数据,就像一个全能助理。

Agent如何智能调用工具?

当你向Agent提问时,它会经历以下几个步骤:

  1. 理解你的需求:分析你的问题,确定需要完成什么任务
  2. 选择合适的工具:从它的"工具箱"中选择最适合的工具
  3. 准备必要的参数:提取问题中的关键信息作为工具的输入
  4. 执行工具调用:使用选定的工具完成任务
  5. 整合结果:将工具返回的结果转化为易于理解的回答

比如当你问"北京今年什么时候入秋"时,Agent会识别出这是一个天气查询任务,需要调用网络搜索工具,并将"北京"、"2024"、"入秋时间"作为关键参数。

从传统搜索到智能Agent:三代进化

第一代:传统搜索引擎

传统搜索引擎只能返回相关网页列表,你需要自己浏览、筛选和整合信息。比如搜索问题【北京今年什么时候入秋,哪里是赏秋的最佳去处?什么时候去最合适】结果如下:

你会得到多个网页链接,需要自己点击进入,找到相关信息,再整合答案。这个过程耗时且效率低下。

第二代:AI总结 + 搜索引擎

简单的AI搜索能够总结网页内容,但缺乏深度思考和规划能力。让 AI搜索 回答【北京今年什么时候入秋,哪里是赏秋的最佳去处?什么时候去最合适】以智谱官方给出的的AI搜索结果为例:

挺不错,问题基本都回答了,但逻辑有点凌乱,不够清晰,但是最关键的是: 搜索时间错误了!!! LLM只是为了搜索问题而搜索忽视了“ 今年 ”这个关键词,而且并没有把得到的【北京的秋天时间】、【北京赏秋去处】两部分信息很好的联系起来

上面是智谱官方的AI搜索,通用系统提示词和思维链等方面优化做的还是很好,所以缺陷的对比效果不明显,来看一下依据这个逻辑用Coze搭建的AI智能助手,也集成了web_search的能力。同样的问题,让 AI搜索 回答【北京今年什么时候入秋,哪里是赏秋的最佳去处?什么时候去最合适】效果如下:

我是初步实践做的这个AI智能助手,因为没有给他配置工作流和思维链的方式,所以他也只能是根据coze的function call的能力分开两次调用web_search来检索 【北京的秋天时间】、【北京赏秋去处】。然后coze的LLM 简单拼接了两个搜索信息的回答。所以说自己搭建的助手还有很大的优化空间。

这里就明显暴露了第二代AI搜索的核心问题:缺乏上下文理解和推理能力,无法真正理解用户意图的深层次含义 。从技术角度看,这是因为简单的RAG(检索增强生成)系统虽然能够获取外部信息,但缺乏对信息的深度处理和整合能力。

所以Agent可以作为载体与外部世界进行交互处理问题,但是对于复杂情况 / 高精度解决方案还是要依靠完善的Agent工作流 / 思维链(类似O1模型范式)来助力AI能力的落地

第三代:工作流增强的智能Agent(AI总结 + 搜索引擎 + 工作流/思维链)

工作流增强的Agent不仅能搜索信息,还能规划解决方案,分步骤执行任务,并整合结果。智谱官方的AI搜索+深度推理回答【北京今年什么时候入秋,哪里是赏秋的最佳去处?什么时候去最合适】效果如下

在官方的AI搜索智能体中,时间正确,抓住用户和核心诉求回答问题,并且逻辑清晰地呈现结果。这里能够更加智能准确的回答,深度推理、思维链的能力功不可没。

分析一下这里agent的工作流和逻辑。首先都是一样的,将问题进行了拆解:

  1. 第一步查询今年(2024年)的北京入秋时间;
  2. 紧接着查询北京赏秋的最佳去处和时间

最后综合两部分搜索得到的结果进行总结回答,并且完全按照问题拆解的步骤进行回答,逻辑清晰。通过思维链的方式让AI搜索在解决LLM幻觉问题的同时也能变得更加聪明。

同时智谱的Agent也可以调用包括绘画、代码在内的各种工具,从而解决了传统搜索引擎和常规 AI 不能解决的难题,表现得更像 “人”了。

实际案例:用Coze搭建自己的智能Agent

Coze是一个让普通用户也能轻松创建Agent的平台。下面是我用Coze搭建的一个简单Agent示例,首先给智能体中的LLM加人设与回复逻辑的系统提示词,让他有相应主题的问答及语义理解的能力;

然后给Agent加上各种能力插件,比如getToutiaoNews、LinkReaderPlugin、bingWebSearch、kimiAI、CodeRunner等等,使其能够处理特殊任务,效果如下图所示:

这个Agent能够:

  • 回答关于AI的问题
  • 搜索网络获取最新信息
  • 阅读网页内容进行深入分析
  • 生成PPT等文档

我的提问【什么是agent】会触发Doubao-pro的functionCall 能力,分析问题语义并调用相应的工具,比如bingSearch来找相关的介绍资料来回答问题

再比如,添加AiPPT插件就可以借助AI搜索【请搜索两个最新的AI开源项目并制作简单的ppt来简要介绍内容】到的资料直接转换为ppt进行展示出来。它会自动:

  1. 使用搜索工具查找最新AI项目
  2. 分析搜索结果,提取关键信息
  3. 调用PPT生成工具,创建演示文稿

可以看到Doubao-pro很清楚的理解了语义并规划了相应的工具调用过程,先使用bingSearch查找开源项目,然后LLM将学习总结的内容转换为ppt展示出来。

除了AI搜索,还可以对搜索到的链接中的信息进行进一步追问,这时Agent会调用LinkReaderPlugin工具来进一步获取搜索到的链接里面的内容来展开回答问题

总的来说,用coze搭建一个优秀的agent主要可以分为以下步骤:

  1. 规划: 制定任务的关键方法

    1. 总结任务目标与执行形式
    2. 将任务分解为可管理的子任务,确立逻辑顺序和依赖关系
    3. 设计每个子任务的执行方法
  2. 实施: 分步构建和测试 Agent 功能
    1. 在 Coze 上搭建工作流框架,设定每个节点的逻辑关系
    2. 详细配置子任务节点,并验证每个子任务的可用性
  3. 完善: 全面评估并优化 Agent 效果
    1. 整体试运行 Agent,识别功能和性能的卡点
    2. 通过反复测试和迭代,优化至达到预期水平

Coze搭建AI搜索与对话智能体的本地部署

coze平台支持api调用,于是我就借助搭建的agent的能力部署一个本地的Agent智能助手,项目库代码结构如下

通过本地部署可视化Agent的输出效果如下:

可以在本地就实现agent的web搜索功能、textToimage功能等等

利用coze的api在本地部署agent时遇到的难点:

  • coze的说明文档对python的支持不是很好,很多细节接口实现细节需要去搜索

  • coze的鉴权方式兼容性比较差,我采用了一个开源的Coze类来封装了鉴权的

  • agent调用插件生成结果时可能会输出很多多余的内容,我优化了提示词输出的约束和api的输出格式调整

其次我也尝试了使用langchain的框架来搭建AI搜索的Agent

利用langchain在本地用纯代码方法部署agent目前遇到的难点:

  • langchain官方提供的免费可用搜索插件很少,比如bing官方的搜索api自己用是需要订阅的
  • langchain的理解和学习成本高,涉及复杂架构和新术语。而且不同的已有插件api的出入参都需要大量时间去调试
  • 如果在langchain搭建工作流,需要考虑到环境配置和依赖管理复杂以及兼容性问题。

如何开始使用Agent改造你的工作流?

想要开始使用Agent改造你的工作流,可以从以下几个简单步骤开始:

  1. 选择合适的平台:Coze、Dify、langchain、Crewai等都提供了Agent功能
  2. 确定你的需求:思考哪些重复性工作可以交给Agent
  3. 从简单任务开始:先用Agent处理简单的信息搜集、整理工作
  4. 逐步扩展能力:随着你对Agent的了解加深,可以让它处理更复杂的任务

对于普通用户,我推荐直接使用Coze这类平台,它们提供了友好的界面,无需编程知识就能创建功能强大的Agent。

Agent适用性自测问卷

想知道你的工作是否适合用Agent改造?回答以下问题,评估一下吧!

  1. 你的工作中是否有大量需要搜索和整理信息的任务?

    • A. 经常需要
    • B. 偶尔需要
    • C. 几乎不需要
  2. 你是否经常需要处理结构化的数据(如表格、报表等)?

    • A. 是的,每天都要处理
    • B. 有时候需要
    • C. 很少需要
  3. 你是否需要定期生成类似格式的文档或报告?

    • A. 是的,这是我的日常工作
    • B. 有时候需要
    • C. 很少需要
  4. 你的工作中是否有明确的、可重复的流程?

    • A. 有很多这样的流程
    • B. 有一些固定流程
    • C. 大多是创造性工作,很少有固定流程
  5. 你是否经常需要在多个工具或平台之间切换来完成工作?

    • A. 是的,经常在多个工具间切换
    • B. 有时候需要
    • C. 通常只在一两个工具中工作
  6. 你的工作是否包含大量简单但耗时的任务?

    • A. 是的,有很多这样的任务
    • B. 有一些这样的任务
    • C. 几乎没有
  7. 你是否经常需要从大量信息中提取关键点?

    • A. 经常需要
    • B. 有时候需要
    • C. 很少需要
  8. 你是否愿意投入时间学习和配置AI工具?

    • A. 非常愿意
    • B. 有一定意愿
    • C. 不太愿意

评分标准:

  • 主要选择A:你的工作非常适合用Agent改造!可能会大幅提高你的工作效率。
  • 主要选择B:你的工作中有一些任务适合用Agent处理,可以从这些任务开始尝试。
  • 主要选择C:你的工作可能更依赖创造性思维,但Agent仍可以在信息收集和初步分析方面提供帮助。

常见问题解答

1. Agent和普通AI助手有什么区别?

回答: Agent比普通AI助手多了"行动"能力。普通AI助手只能基于已有知识回答问题,而Agent可以主动调用外部工具(如搜索引擎、代码执行器、数据分析工具等)来获取信息并执行任务。简单说,普通AI是"知道",Agent是"知道+做到"。

2. 我没有编程基础,能使用Agent吗?

回答: 完全可以!现在有很多低代码或无代码平台(如Coze、Dify等)让普通用户也能轻松创建和使用Agent。这些平台提供了友好的图形界面,你只需通过简单的拖拽和配置就能创建功能强大的Agent。

3. Agent会不会泄露我的敏感信息?

回答: 这取决于你使用的平台和配置。大多数正规Agent平台都有严格的隐私政策,但建议:

  • 不要让Agent处理高度敏感的个人或商业信息
  • 使用支持本地部署的解决方案处理敏感数据
  • 了解并配置平台的数据保留和隐私设置

4. Agent的使用成本是多少?

回答: 成本因平台而异:

  • 许多平台提供免费入门级别(如Coze目前的基础功能是免费的)
  • 付费版本通常按API调用次数或使用量计费
  • 自建解决方案需要考虑开发成本和基础设施费用

    总体而言,对于个人用户,基础使用通常是可负担的,而企业级应用则需要根据规模和需求评估成本。

5. 我的Agent表现不佳,如何改进?

回答: 改进Agent性能的几个关键方法:

  • 优化提示词:明确、具体的指令通常能获得更好的结果
  • 细化工作流:将复杂任务分解为更小的步骤
  • 添加适当工具:确保Agent有完成任务所需的所有工具
  • 增加示例:提供成功案例让Agent学习
  • 收集反馈:记录失败案例,有针对性地改进

所以,你准备好让Agent改造你的工作流了吗?


想了解更多?欢迎在评论区留言,分享你对Agent的看法或使用体验!

智能Agent如何改造传统工作流:从搜索到全能助手的更多相关文章

  1. 人工智能2:智能Agent

    一.Agent基本定义 基于理性行为的Agent是本书人工智能方法的核心.Agent由传感器.执行器两个重要元件组成,具有与环境交互的能力,其能力是通过分析感知序列,经过Agent函数映射到相应的行动 ...

  2. 阿里云视觉智能开放平台的人脸1:N搜索的开源替代-Java版(文末赋开源地址)

    ​ 一.人脸检测相关概念 人脸检测(Face Detection)是检测出图像中人脸所在位置的一项技术,是人脸智能分析应用的核心组成部分,也是最基础的部分.人脸检测方法现在多种多样,常用的技术或工具大 ...

  3. 努力学习 HTML5 (3)—— 改造传统的 HTML 页面

    要了解和熟悉 HTML5 中的新的语义元素,最好的方式就是拿一经典的 HTML 文档作例子,然后把 HTML5 的一些新鲜营养充实进入.如下就是我们要改造的页面,该页面很简单,只包含一篇文章. Apo ...

  4. 程序员编程艺术第三十六~三十七章、搜索智能提示suggestion,附近点搜索

    第三十六~三十七章.搜索智能提示suggestion,附近地点搜索 作者:July.致谢:caopengcs.胡果果.时间:二零一三年九月七日. 题记 写博的近三年,整理了太多太多的笔试面试题,如微软 ...

  5. 网页搜索之后的APP搜索

    搜索技术是互联网最核心的技术之一.但是移动互联网迅猛发展的今天,互联网产生的数据已经不是简单的网页搜索所能涵盖的了.比如微信公众号,产生了许多优质的内容,如果这些公众号仅仅将这些内容发布到微信平台,那 ...

  6. K2 BPM_K2受邀出席SAP研讨会:共话“智能+”时代下的赋能与转型_全业务流程管理专家

    ​ 3月5日,第十三届全国人大二次会议在北京召开.政府工作报告首次出现“智能+”,并明确指出2019年,要打造工业互联网平台,拓展“智能+”,为制造业转型升级赋能.从政府工作报告中不难看出,“智能+” ...

  7. 制造运营管理 (MOM) 的工作流驱动方法

    介绍 "在企业中使用的任何技术的第一条规则是,应用于高效运营的自动化将放大效率.第二个是自动化应用于低效率的操作会放大低效率." - 比尔盖茨 . 工作流是结构化的活动,主要涉及人 ...

  8. VS2008+Qt+助手 智能提示不显示、Qt关键字不高亮的解决办法【已解决】

    笔者使用的开发环境是VS2008+Qt4.8.5+VAssistX,有时候会出现代码关键字不能高亮显示,并且助手的智能提示不显示.问题如下 解决的办法是在助手的选项中设置其搜索路径,助手的设置通过VS ...

  9. Qt 智能指针学习(7种指针)

    Qt 智能指针学习 转载自:http://blog.csdn.net/dbzhang800/article/details/6403285 从内存泄露开始? 很简单的入门程序,应该比较熟悉吧 ^_^ ...

  10. Qt 智能指针学习(7种QT的特有指针)

    从内存泄露开始? 很简单的入门程序,应该比较熟悉吧 ^_^ #include <QApplication> #include <QLabel> int main(int arg ...

随机推荐

  1. 基于STC8G1K08的CH549单键进入USB下载模式实验

    一.实验原因 CH552或CH549进入USB下载,通常需要两个按键,一个控制电源的通断,一个通过串联电阻(一头接VCC或V33)冷启动时抬高UDP电平.时序上是这样的:断电--按下接UDP的轻触开关 ...

  2. Discord技术架构调研(IM即时通讯技术架构分析)

    一.目标 调研 discord 的整体架构,发掘可为所用的设计思想 二.调研背景 Discord作为目前比较火的一个在线聊天和语音通信平台且具有丰富的功能.另外其 "超级"群 概念 ...

  3. UWP 读写文件

    List<Pics> pics = new List<Pics>(); for (int i = 0; i < 2000; i++) { pics.Add(new Pic ...

  4. 微服务实战系列(五)-注册中心Eureka与nacos区别-copy

    1. 场景描述 nacos最近用的比较多,介绍下nacos及部署吧,刚看了下以前写过类似的,不过没写如何部署及与eureka区别,只展示了效果,补补吧. 2.解决方案 2.1 nacos与eureka ...

  5. Kotlin:定义参数是函数的函数、函数内联、具名函数的函数引用

  6. Python代码将大量遥感数据的值缩放指定倍数的方法

      本文介绍基于Python中的gdal模块,批量读取大量多波段遥感影像文件,分别对各波段数据加以数值处理,并将所得处理后数据保存为新的遥感影像文件的方法.   首先,看一下本文的具体需求.我们现有一 ...

  7. moectf2023 web wp

    gas!gas!gas! 直接跑脚本 import requests session=requests.Session() url="http://127.0.0.1:14447" ...

  8. Fluttter基础组件Image的使用

    1.图片 Image 图片组件( Image)是显示图像的组件, Image 组件有多种构造函数 : new Image:从 ImageProvider 获取图像 . new Image.asset: ...

  9. ThreeJs-13效果合成与后期处理

    一.合成效果原理与设置 什么是效果合成,就是可以把一些效果经过后期处理再放出来 原来的物体是直接通过render渲染出来,而现在则是经过一条render通道,可以处理也可以叠加处理后再放出来 首先正常 ...

  10. Luogu P4310 绝世好题 题解 [ 绿 ] [ 线性 dp ] [ 单调队列优化 ] [ 二进制优化 ]

    题目:绝世好题. 暴力 dp 显然 \(O(n^2)\) 转移即可. 单调队列优化 观察到只有某二进制位两个数都为 \(1\) 时才能转移,因此我们把每个二进制位开一个单调队列,然后对于一个数 \(a ...