今日凌晨,阿里开源Qwen3,推理成本大幅下降,性能全面超越 DeepSeek-R1、OpenAI-o1 等,问鼎全球最强开源模型。在代码、数学、通用能力各项性能指标中,Qwen3都名列前茅。与 DeepSeek-R1、o1、o3-mini、Grok-3 和 Gemini-2.5-Pro 等顶级模型相比,表现出极具竞争力的结果。

而就在 4 天前,我们刚发布了业内首个图原生智能体系统系统 Chat2Graph,旨在通过智能体技术高效解决用图问题,同时深度融合「Graph+AI」技术增强智能体的推理效果。开源项目链接:https://github.com/TuGraph-family/chat2graph

Chat2Graph视频介绍:https://www.bilibili.com/video/BV15CjPztEgg

Chat2Graph 届时已将 Qwen3 接入作为基础模型服务,并在第一时间对其在图领域的任务上的表现进行了评测。

对比模型

综合性能、推理能力、价格三个因素,我们从挑选如下三个模型做对比分析:

  1. Qwen3:最强开源大模型,支持 thinking/no-thinking 两种模式。
  2. OpenAI o3-mini:o 系列闭源模型,mini 版本推理速度快、tokens 价格适中。
  3. Gemini 2.5 flash:最新的 Gemini 系列闭源模型,flash 版本推理速度极快,tokens 价格非常便宜。

图领域任务

我们使用了同一个问题在Chat2Graph上进行测试:

根据「罗密欧与朱丽叶」的故事构建图谱。然后,你还要查询图数据库,告诉我故事中出现了多少人物角色。然后进行深度分析,计算出最有影响力的节点。

实验结果

整体实验结果如下表所示。

Qwen3 OpenAI o3-mini Gemini 2.5 flash
图谱规模 10 实体 11 关系 4 实体 3 关系 25 实体 30 关系
抽取人物数(共14位) 8 位 2 位 13 位
调用图算法 PageRank、BC PageRank PageRank
工具调用次数 32 次 30 次(失败 1 次) 50 次
总执行时间 30 分钟 13 分钟 15 分钟
输出格式丰富度

具体分析来看:

  1. Qwen3:

    • 抽取:能力一般,主要弱点在于数据提取阶段,只识别了8/14的人物,构建的图谱规模相对较小,影响了后续任务的基础。
    • 分析:能力突出,Qwen3 在图分析阶段表现最好,不仅调用了PageRank 算法,还调用了 BC 算法,并结合两者进行了深度分析,展现了较强的分析解释能力。输出格式也最丰富。
    • 效率:一般,Qwen3 在三个模型中执行时间最长(30分钟)。但是在平均执行效率(执行时间/图谱规模)上和 OpenAI o3-mini 基本持平。
    • 综合评定:★★★
  2. OpenAI o3-mini:
    • 抽取:能力较差,仅提取了极少量的实体和关系(4实体,3关系),人物提取准确率最低(2/14)。构建的知识图谱过于稀疏,无法有效支持后续任务。
    • 分析:能力一般,在 Schema 设计、复杂工具(多参数的 PageRank 算法)调用、图查询语句生成方面表现尚可,但整体效果因数据基础薄弱而大打折扣。输出格式丰富度一般。
    • 效率:一般,o3-mini 虽然总时间最短,但其极低的图谱质量产出,导致效率指标并不理想。但这可能是牺牲了信息提取完整性的结果(被评价为学习了“偷懒”技能)。
    • 综合评定:★★
  3. Gemini 2.5 flash:
    • 抽取:能力最好,在此次测试中,Gemini 2.5 flash 表现最为出色。它成功构建了规模最大、最接近完整的知识图谱(25个实体,30条关系),并且在人物角色提取方面准确率最高(13/14,仅遗漏1位)。长文本幻觉率低,尽管逐步导入了相当规模的图谱,但没有出现节点重复导入的问题。
    • 分析:能力一般,仅仅调用一个 PageRank 算法来找出最影响力的节点,不过作出了较为合理算法结果的解释,且结果符合基本常识。输出格式丰富度一般。
    • 效率:最好,工具调用次数最多(50次),且执行时间仅为 15分钟,显示出较高的效率和彻底性。
    • 综合评定:★★★★

最后补充一下部分关键测试效果。

任务规划

总体来看,三个模型在 Agent 任务规划能力上差异并不明显,基本上都能做到细致精确的子任务拆分。

输出格式

从执行结果的输出格式来看,Qwen3 的输出格式相对丰富,可读性更加友好。

评测结论

整体来看,Gemini 2.5 flash 综合表现最佳,在执行效率和图抽取能力上优势明显;Qwen3 凭借对图领域工具的熟练运用展现了突出的深度分析能力,但在数据抽取和执行效率上表现一般;相比之下,o3-mini 整体表现最差。

因此,虽然 Qwen3 在各项开源测试榜单上表现出色,但经过对实际图任务的测试,与当下的领先的闭源模型能力仍有一定的差距。所以,通过特定的图领域知识和工具,基于通用大模型构建图原生智能体系统仍旧十分必要,这也是 Chat2Graph 一直以来要解决的问题。

技术展望

Qwen3的混合推理模型,无缝支持了thinking&no-thinking模式,为上层应用提供了灵活控制思考成本的能力。在Chat2Graph中可以尝试通过打开“thinking”模式来增强 Leader 的规划能力 / Thinker 的推理效果。同时也可以通过关闭“thinking”模式,降低 Expert/Actor 执行开销和时延。

此外 Qwen3 对 MCP 的支持,让我们看到大模型正在逐步过渡到以 Agent 为中心的训练,这更督促 Agent 的开发者需要深度反思大模型能力界限之外的 Agent 的工程设计策略,进一步挖掘在工程层面协助大模型改进智能应用端到端体验的创新与方案。

Qwen3接入评测,最强开源模型更懂Graph了吗?的更多相关文章

  1. 从开源模型、框架到自研,声网 Web 端虚拟背景算法正式发布

    根据研究发现,在平均 38 分钟的视频会议里面,大概会有 13 分钟左右的时间用于处理和干扰相关的事情.同时研究也表明在参加在线会议的时候,人们更加倾向于语音会议,其中一个关键原因就是大家不希望个人隐 ...

  2. Wolsey“强整数规划模型”经典案例之一单源固定费用网络流问题

    Wolsey“强整数规划模型”经典案例之一单源固定费用网络流问题 阅读本文可以理解什么是“强”整数规划模型. 单源固定费用网络流问题见文献[1]第13.4.1节(p229-231),是"强整 ...

  3. 最强NLP模型-BERT

    简介: BERT,全称Bidirectional Encoder Representations from Transformers,是一个预训练的语言模型,可以通过它得到文本表示,然后用于下游任务, ...

  4. R_针对churn数据用id3、cart、C4.5和C5.0创建决策树模型进行判断哪种模型更合适

    data(churn)导入自带的训练集churnTrain和测试集churnTest 用id3.cart.C4.5和C5.0创建决策树模型,并用交叉矩阵评估模型,针对churn数据,哪种模型更合适 决 ...

  5. 什么?让每一个开源项目更安全?啊?还有IDE工具?难道是它?

    背景 入编程界6年来,大大小小的安全漏洞是真滴听了不少,xxx通过日志入侵了,xxxx通过请求入侵了,等等等等. 近期fastJson又报安全漏洞,敢巧自己又"被"跳槽到了新公司, ...

  6. 技术范儿的 Keep 发力AI赛道,为什么“虚拟教练”会更懂你?

    http://www.tmtpost.com/3363367.html 摘要: 虚拟教练技术会整合到一些业务场景和硬件产品中收费,但是收费的具体情况彭跃辉还暂未透露. 图片来源于Unsplash 自去 ...

  7. 阿里云更懂你的数据库,免费提供DBA服务

    阿里云更懂你的数据库,免费提供DBA服务   阿里云云数据库(RDS)管理控制台近期将全面升级为云数据库管家.云数据库管家的使命是提供便捷的操作.贴心的服务.专业的处理建议,帮助用户管理好云数据库. ...

  8. Awareness Kit让你的音乐APP脱颖而出,更懂用户,也更动人心

    让你的音乐APP脱颖而出,更懂用户,也更动人心. 场景 情景感知服务能带来什么?   作为音乐发烧友,闲下来的时候总想打开App,享受沉浸在音乐中的放松.然而,App推荐的歌单经常没法满足我的需要,如 ...

  9. TCP协议的性能评测工具 — Tcpdive开源啦

    Github地址:https://github.com/fastos/tcpdive 为什么要开发Tcpdive 在过去的几年里,随着移动互联网的飞速发展,整个基础网络已经发生了翻天覆地的变化. 用户 ...

  10. 5 分钟入门 Google 最强NLP模型:BERT

    BERT (Bidirectional Encoder Representations from Transformers) 10月11日,Google AI Language 发布了论文 BERT: ...

随机推荐

  1. InfluxDB修改数据存储位置(二进制安装版)

    InfluxDB修改数据存储位置(二进制安装版) 在二进制安装方式下,修改InfluxDB的数据存储位置通常涉及以下几个步骤.以下步骤以InfluxDB 2.x版本为例进行说明,因为InfluxDB ...

  2. 同步工具-SeaTunnel使用

    一.介绍 SeaTunnel 是一个非常好用.超高性能的分布式数据集成平台,架构于 Apache Spark 和 Apache Flink 之上,实现了海量数据的实时同步与转换.每天可以稳定高效地同步 ...

  3. [THUWC2017] 在美妙的数学王国中畅游 题解(内附求导小技巧)

    事实证明物竞笔记是个好东西,可惜没带,不然还能谎称自己会一点求导和微积分. 顺便在这里把比较经典的一些关于求导的东西记录一下: 常用函数求导: \(C'=0,(x^n)'=nx^{n-1},(\log ...

  4. 泰山派linux(Ubuntu 20.04)安装GCC编译环境

    linux(Ubuntu 20.04)安装gcc编译环境 1.查看可安装的编译链版本(在用户apt软件源中检索) apt-cache search aarch64 交给AI翻译 后面验证得知本版本Ub ...

  5. logback-spring.xml 模版

    <?xml version="1.0" encoding="UTF-8"?> <configuration debug="false ...

  6. 华为平板+Zotero+Xodo+坚果云+Zotfile+Zotero OCR,实现论文笔记平板手写+Win自动生成,补充官方教程

    需要的硬件,软件,插件和实现的最终效果,rt. 1. Win,下载Zotero,坚果云 下载网址:https://www.zotero.org/download/ 版本:Zotero 6.如果是其他版 ...

  7. php7安装redis6扩展

    1.下载 php-redis扩展下载地址: http://pecl.php.net/package/redis 具体下载版本以自己的PHP版本信息为准 linux下载命令 wget http://pe ...

  8. 一款torrent文件格式分析工具(绿色纯天然)

    点击下载 1.主界面 2.文件分析(显示文件所在分片的位置) 3.获取指定分片所在的peers服务器列表 一只会铲史的猫

  9. 业余无线电爱好者,自制天线比较容易上手天线“莫克森天线”Moxon

    本文仅作为笔记分享,如有疑问可以留言交流. 莫克森天线尺寸计算软件:Moxon rectangle 高手门做的成品,参考资料: 英文文献资料:

  10. 「实战篇」开源项目docker化运维部署-借助dockerSwarm搭建集群部署(九)

      为了让学习的知识融汇贯通,目前是把所有的集群都放在了一个虚拟机上,如果这个虚拟机宕机了怎么办?俗话说鸡蛋不要都放在一个篮子里面,把各种集群的节点拆分部署,应该把各种节点分机器部署,多个宿主机,这样 ...