图表图片由阿里巴巴提供

本文作者的观点:QwQ-32B 作为小型开源 AI 模型,在数学、编程等任务上表现接近甚至超越 DeepSeek-R1 671B模型,同时计算资源占用大幅降低,使其更易部署和使用。然而,在逻辑推理等方面仍存在推理不一致和语言混杂等问题,有待优化。作者总体认可 QwQ-32B 的实力,并认为它代表了 AI 发展向“小而高效”方向演进的趋势,可能冲击 OpenAI 等收费模式的市场格局。

DeepSeek R-1 才刚刚发布两个月,我当时真的很兴奋,因为 AI 社区终于有了一个能与 OpenAI 的强大 o1 模型抗衡的开源模型。

然而就在昨天,阿里巴巴发布了另一个开源模型,功能与 DeepSeek R-1 相当,但体量却小了 20 倍。

这家中国科技巨头推出的新推理模型 QwQ-32B 仅使用 320 亿参数,而 DeepSeek 的参数量为 6710 亿,在推理过程中有 370 亿参数被实际调用。

自 2023 年推出首个大型语言模型以来,阿里巴巴大幅增加了对 AI 的投资。其云智能部门已成为主要增长动力,在 12 月季度对阿里巴巴的利润增长贡献显著。

                                                阿里巴巴集团控股有限公司 2025 年 3 月 5 日市值

“展望未来,由 AI 驱动的云智能集团收入增长将持续加速。” 阿里巴巴 CEO 吴泳铭最近表示。AI 发展潜力带来的乐观情绪得到了投资者的积极响应,QwQ-32B 发布后,阿里巴巴股价明显上涨。

QwQ-32B 的关键特性

QwQ-32B 采用强化学习(RL),即通过试错学习,而非传统的监督训练方式。这样做的主要优势是,它所需的资源远远少于 DeepSeek-R1(QwQ-32B 仅 320 亿参数,而 DeepSeek-R1 拥有 6710 亿参数,其中约 370 亿实际参与推理)。

尽管体量更小,QwQ-32B 在某些任务上却能达到甚至略微超越更大模型的表现。

以下是其关键特性概览:

• 类型:因果语言模型

• 训练阶段:预训练 & 后训练(监督微调和强化学习)

• 架构:采用 RoPE、SwiGLU、RMSNorm 和 Attention QKV 偏置的 Transformer

• 参数数量:325 亿

• 非嵌入参数数量:310 亿

• 层数:64

• 注意力头数(GQA):Q 40,KV 8

• 上下文长度:完整 131,072 令牌

强化学习(RL)为何重要

阿里巴巴选择 RL 训练 QwQ-32B 的决定至关重要。RL 让模型能直接从现实世界的反馈中学习,提高准确性和适应性。阿里巴巴在两个阶段中实施了这一方法:

• 初期专注于数学和编程:第一阶段,QwQ-32B 通过直接测试数学问题和编程任务学习,并通过实际计算和代码执行验证结果。

• 扩展至通用能力:在掌握特定技能后,阿里巴巴扩大训练范围,使模型在遵循指令、优化用户交互等方面表现更好。

这种强化学习方法显著提升了模型的效率,同时没有牺牲性能。

性能测试结果

在多个基准测试中,QwQ-32B 取得了出色表现:

• 数学任务:在 AIME24 等高难度数学测试中表现与 DeepSeek-R1 持平。

• 编程任务:在 LiveCodeBench 等代码基准测试中,QwQ-32B 取得了与 DeepSeek-R1 相近的分数。

• 通用任务:在指令跟随和工具使用测试中,QwQ-32B 略微优于 DeepSeek-R1。

下方是 QwQ-32B 与其他领先模型(包括 DeepSeek-R1-Distilled-Qwen-32B、DeepSeek-R1-Distilled-Llama-70B、o1-mini 以及原版 DeepSeek-R1)的对比表现。

                       QwQ-32B 与其他模型的对比,包括 DeepSeek-R1-Distilled-Qwen-32B、DeepSeek-R1-Distilled-Llama-70B、o1-mini 和原版 DeepSeek-R1

这些基准测试显示,该模型在实际应用中的可行性,适用于多种真实场景。

但它在现实世界中表现如何?

人工智能与数据专家 Ana Rojo Echeburúa(应用数学博士)对 QwQ-32B 进行了数学、编程和逻辑推理测试。

草莓测试

提示:“‘strawberry’ 这个单词中字母 ‘r’ 出现了几次?”

                                                          QwQ-32B 回答

尽管 QwQ-32B 准确计算出了字母的数量,但它错误地指出了字母的位置,尽管题目并未明确要求这一点。这突显了该模型偶尔会提供不必要的细节,并在推理上存在一定的不准确性。

数学推理测试

提示:“边长为 3、4、5 的三角形面积是多少?”

                                                    QwQ-32B 回答

该模型正确回答出面积为 6,并清晰地解释了多种求解方法,展现了清晰且直接的推理过程。然而,它在格式和公式呈现上存在一些不一致之处。

逻辑推理测试

经典“狼、山羊和白菜”问题

提示:“一个人要带着狼、山羊和白菜过河。船每次只能载一个物品。如果单独留下,狼会吃山羊,山羊会吃白菜。请问他如何安全地把它们带过河?”

                                                    QwQ-32B 回答

QwQ-32B 提供了一个大体正确的解决方案,但令人困惑的是,它声称需要六个步骤,而实际只列出了五个。其推理过程较为详细,但也出现了一些问题,包括语言混杂——英文推理中夹杂了中文文本,使部分内容难以理解。有趣的是,推理部分包含了一套完整且准确的逐步解决方案,但与最终总结的答案并不匹配。

对开发者和企业的实际影响

QwQ-32B 的高效性让先进 AI 技术更容易普及。相比 DeepSeek-R1 需要高达 1600GB 的 GPU 显存,QwQ-32B 仅需 24GB,使企业无需庞大的计算基础设施即可部署强大 AI 工具。

此外,该模型采用 Apache 2.0 许可证开源,企业可以自由修改和使用,适用于自动化、软件开发、数据分析等多个场景。

AI 社区对 QwQ-32B 的初步反应总体积极,特别是开发者们称赞其高效性和易部署性。例如,来自 Hugging Face 的 Vaibhav Srivastav 赞扬了 QwQ-32B 的速度和易用性。

如何访问 QwQ-32B

目前有多种方式可访问和测试 QwQ-32B:

• 专用演示应用:Hugging Face Demo

• 直接下载模型:开发者和研究人员可从 Hugging Face 仓库下载 QwQ-32B 进行深入研究。

• 在线界面:阿里巴巴通过官方 Qwen Chat 提供交互平台。

                                            Qwen 官方网站界面截图

Hugging Face 界面截图

此外,预计 OIlama 等工具很快也会支持 QwQ-32B,让开发者能够更方便地使用本地化部署方式。

最终感想

我真的对 QwQ-32B 这样的开源 AI 模型出现的速度感到震撼——甚至有点不知所措。这一发展表明 OpenAI 采用的高价订阅模式可能很快会过时,因为高质量的开源替代方案正变得越来越普及。

像 QwQ-32B 这样的模型展示了 AGI(通用人工智能)发展的包容性,使 AI 不再只是少数人能负担得起的昂贵工具。

当然,仍有许多方面值得探索,特别是这些小型但强大的模型在实际环境中的表现如何。我计划在搭载 M3 芯片的 MacBook 上测试 QwQ-32B,并在后续文章中分享详细结果。

QwQ-32B 预览版的优势令人印象深刻,但推理和最终答案的矛盾性仍有待改进。总体而言,这可能预示着 AI 领域向更小、更高效模型转型的新趋势。

你试用过这个新模型了吗?如果有,我很想听听你的想法。

阿里巴巴 QwQ-32B真的超越了 DeepSeek R-1吗?的更多相关文章

  1. $splay$学习总结$QwQ$

    省选之前就大概搞了下$splay$,然后因为时间不太够就没写总结了,,,然后太久没用之后现在一回想感觉跟没学过一样了嘤嘤嘤 所以写个简陋的总结,,,肥肠简陋,只适合$gql$复习用,不建议学习用 然后 ...

  2. R语言缺点

    R的优点:免费,开源,体积小.缺点:对大文本处理差,另外一个也在于开源,package如果出错,烦死你.当你跑比较大的simulation,对效率有要求的时候,有时还是不得不用C,这可能是10小时和1 ...

  3. 【CF280D】 k-Maximum Subsequence Sum ,线段树模拟费用流

    昨天考试被教育了一波.为了学习一下\(T3\)的科技,我就找到了这个远古时期的\(cf\)题(虽然最后\(T3\)还是不会写吧\(QAQ\)) 顾名思义,这个题目其实可以建成一个费用流的模型.我们用流 ...

  4. TG可能会用到的动态规划-简易自学

    最新更新 完整校订版见此 戳我阅读 以下为未核对不完整版本. 因版权原因,完整精校版不向所有公众开放. 请从您找到本博客的地址查找附带密码(比如简书分享了本网址,请您从简书分享页底部查询密码),感谢您 ...

  5. java架构师之路--推荐书籍

    1.大型网站技术架构:核心原理与案例分析 本书通过梳理大型网站技术发展历程,剖析大型网站技术架构模式,深入讲述大型互联网架构设计的核心原理,并通过一组典型网站技术架构设计案例,为读者呈现一幅包括技术选 ...

  6. java 枚举 封装操作方法

    前言: 由于刚转java项目,所以对于java语言比较陌生,尤其是lambda和一些诸如(一个java文件只能有一个public class)等等的零散知识点之类... 使我觉得就语言的层级来说..n ...

  7. FJWC2019 最短路

    题目描述 有一张无向图,开始的时候所有边权为1,所有点没有权值,现在给定一个整数k,表示可以将k个点的点权设置为1,求点0到n-1的最短路最长是多少 Solution 网络流好题[然而本蒟蒻还是不会] ...

  8. 7月清北学堂培训 Day 1

    今天是林永迪老师的讲授~ 基础算法 1. 模拟算法 面向测试算法 模拟算法的关键就是将人类语言翻译成机器语言. 要做到以下两点: 1.优秀的读题能力: 2.优秀的代码能力: 程序流程图: 读入,循环处 ...

  9. $CH$ $0x50$ & $0x51$ 做题记录

    [X]$Mr.Young's\ Picture\ Permutations$ 前面这儿写了挺多道辣,,,懒得写辣$QAQ$ (后面所有同上都是同这个$QwQ$ [X]$LCIS$ 做过了,看这儿 $u ...

  10. 「算法笔记」Min_25 筛

    戳 这里(加了密码).虽然写的可能还算清楚,但还是不公开了吧 QwQ. 真的想看的 私信可能会考虑给密码 qwq.就放个板子: //LOJ 6053 简单的函数 f(p^c)=p xor c #inc ...

随机推荐

  1. 更改 macOS 用户帐户和个人文件夹的名称

    https://support.apple.com/zh-cn/HT201548 您可以对创建 macOS 用户帐户时命名的用户帐户和个人文件夹进行重命名.   您的 macOS 用户帐户名称和您个人 ...

  2. intellij idea 自动生成test单元测试

    1. 创建测试类 打开IDEA,在任意类名,任意接口名上,按ctrl+shift+t选择Create New Test   image 然后根据提示操作(默认即可),点击确认,就在项目的/test/j ...

  3. [转]C# SerialPort串口通信发送接收,处理接收数据完整

    废话少说,直接上干货.感兴趣的读者自己去研究代码吧.请见谅. using System; using System.Collections.Generic; using System.IO.Ports ...

  4. 浅说c/c++ coroutine

    浅说c/c++ coroutine 从上面我们可以得到关于协程的几个关键信息, 1.打破传统(regular)函数调用的限制. 2.stackful协程实现方式,基于独立栈,上下文切换. 3.stac ...

  5. 自动化测试工具-Katalon Studio

              Katalon 代码片段: 1)if(WebUI.verifyTextPresent(findTestObject('Page_Skin/p_Are you ok?'),10,Fa ...

  6. Note -「Lagrange 反演」记笔习学

      也许施工完成啦?   对于常数项为 \(0\),一次项非 \(0\) 的多项式 \(F,G\),定义复合运算 \(\circ\),满足 \[(F\circ G)(x)=F(G(x))=\sum_{ ...

  7. w3cschool-memcached教程

    https://www.w3cschool.cn/memcached/ Memcached 教程 Memcached是一个自由开源的,高性能,分布式内存对象缓存系统.   手册简介 Memcached ...

  8. Redis持久化(RDB、AOF)

    为什么要持久化 Redis是内存数据库,如果不将内存中的数据库状态保存到磁盘中,那么一旦服务器进程退出,服务器的数据库状态就会消失(即断电即失).为了保证数据不丢失,我们需要将内存中的数据存储到磁盘, ...

  9. 存储过程专题(Oracle)

    本文转自 https://www.cnblogs.com/lukelook/p/9600407.html,感谢博主 豆豆DE思念 整理分享. 1.Oracle 存储过程基本格式  最简单的版本 is ...

  10. 【忍者算法】从股市走势到动态规划:探索最大子数组和问题|LeetCode 53 最大子数组和

    从股市走势到动态规划:探索最大子数组和问题 生活中的算法 想象你是一位股票交易员,手上有一支股票的每日涨跌数据.你想找出哪段连续的交易日能获得最大的收益.如果某天股票上涨5元,我们记为+5,下跌3元记 ...