原文: https://mp.weixin.qq.com/s/3RXdXT8hzlsMp_Uk_BvpfQ

全文摘要

本文介绍了最新的 Qwen 模型家族——Qwen3,它是一个大型语言模型系列,旨在提高性能、效率和多语言能力。该系列包括密集架构和混合专家(MoE)架构的模型,参数规模从 0.6 到 235 亿不等。Qwen3 的创新之处在于将思考模式(用于复杂、多步推理)和非思考模式(用于快速、基于上下文的响应)整合到一个统一框架中,消除了切换不同模型的需求,并可以根据用户查询或聊天模板动态切换模式。此外,Qwen3 引入了思考预算机制,允许在推断过程中适应性地分配计算资源,从而根据任务复杂度平衡延迟和性能。通过利用旗舰模型的知识,作者显著减少了构建小规模模型所需的计算资源,同时确保它们具有高度竞争力的表现。实验结果表明,Qwen3 在各种基准测试中实现了最先进的结果,包括代码生成、数学推理、代理任务等任务,在与更大规模的 MoE 模型和专有模型的竞争中表现出色。与前一代 Qwen2.5 相比,Qwen3 扩展了对 119 种语言和方言的支持,提高了跨语言理解和生成的能力,增强了全球可访问性。为了促进可重复性和社区驱动的研究和发展,所有 Qwen3 模型都以 Apache 2.0 许可证的形式公开可用。

论文地址:https://arxiv.org/abs/2505.09388

github: https://github.com/QwenLM/Qwen3

huggingface: https://huggingface.co/Qwen

论文方法

方法描述

本文提出了一种名为“Qwen3”的新型预训练模型,包括6个密集模型和2个MoE模型。这些模型使用了Grouped Query Attention、SwiGLU、Rotary Positional Embeddings以及RMSNorm等技术,并引入了QK-Norm来确保稳定的训练过程。此外,该模型采用了与Qwen2.5相似的基本架构,但在MoE模型中进行了创新,如实现细粒度专家分割和排除共享专家等。

Qwen3模型还利用了Qwen的分词器来进行文本识别和处理。在数据集方面,该模型收集了大量的高质量数据,覆盖了多种语言和领域,以提高模型的语言能力和跨语言能力。同时,通过多维度的数据标注系统,优化了数据混合的效果。

在预训练阶段,Qwen3模型采用了三个阶段的训练方式:第一阶段是通用阶段(S1),在此阶段中,所有模型都基于超过30万亿个标记的语料库进行训练;第二阶段是推理阶段(S2),在此阶段中,增加了STEM、编码、推理和合成数据的比例,并使用更高的质量标记进行进一步的训练;第三阶段是长序列阶段,在此阶段中,使用数百亿个标记的高质量长序列语料库扩展模型的上下文长度。最后,该模型根据前两个阶段的结果预测出每个模型的最佳学习率和批量大小策略。

方法改进

相比于之前的模型,Qwen3模型在多个方面进行了改进:

  1. 扩大了训练数据的规模和多样性,提高了模型的语言能力和跨语言能力。
  2. 引入了新的技术和算法,如QK-Norm、YARN和Dual Chunk Attention,提高了模型的性能。
  3. 实现了细粒度专家分割和排除共享专家等创新设计,提高了模型的效率和稳定性。
  4. 利用了多维度的数据标注系统,优化了数据混合的效果。

解决的问题

Qwen3模型解决了以下问题:

  1. 提高了模型的语言能力和跨语言能力,使其能够更好地应对多样化的自然语言处理任务。
  2. 改进了模型的性能,使其具有更好的推理能力和稳定性。
  3. 提供了一个有效的数据混合方案,使模型能够更有效地利用大规模数据集。

论文实验

本文主要介绍了针对自然语言处理领域的大型预训练模型的系列实验,并对其进行了全面的评估和比较。作者使用了多种指标来衡量模型在不同任务上的表现,包括通用知识问答、数学计算、科学知识、编程等多领域。具体实验内容如下:

  1. 性能评估:对大型预训练模型(如Qwen3系列)与同类开源模型(如DeepSeek-V3 Base、Gemma-3、Llama-4-Maverick等)进行了性能评估,比较它们在多个基准测试数据集上的表现。结果显示,Qwen3系列模型在大多数任务上都表现出色,特别是在科学知识、编程等领域具有显著优势。
  2. 模型大小评估:将Qwen3系列模型与其他领先的开源模型(如Llama-4-Maverick、Qwen2.5-72B-Base等)进行了模型大小的比较。结果表明,Qwen3系列模型不仅在性能上有优势,而且相对于其他模型而言,其参数量和激活参数量都更少,具有更高的效率。
  3. 跨语言能力评估:通过MGLUE多语言评估数据集,对Qwen3系列模型的跨语言能力进行了评估。结果显示,Qwen3系列模型在不同语言的任务上都有较好的表现,证明了其在多语言环境下的应用潜力。

综上所述,本文通过对Qwen3系列模型进行全面的评估和比较,展示了其在各个任务和指标上的优越性能,为自然语言处理领域的研究提供了有力的支持。

论文总结

文章优点

该论文介绍了一种名为Qwen3的预训练模型,其特点是具有思考模式和非思考模式,并且可以根据任务需要动态管理使用的标记数量。该模型在包含36万亿个标记的大型数据集上进行了预训练,能够理解和生成119种语言和方言的文本。通过一系列全面的评估,Qwen3在标准基准测试中表现出色,包括代码生成、数学推理、代理等任务。 此外,该论文还介绍了作者团队的研究计划,包括提高模型架构和训练方法的有效压缩、扩展到非常长的上下文等方面的工作。这些工作将有助于构建更强大的代理系统,以应对复杂任务的需求。

方法创新点

该论文的主要贡献是提出了一种新的预训练模型Qwen3,它具有思考模式和非思考模式,可以动态管理使用的标记数量。这种设计使得该模型能够在处理不同类型的自然语言任务时更加灵活和高效。此外,该论文还提到了一些研究计划,如有效压缩、扩展到非常长的上下文等方面的工作,这些工作有望进一步提高模型的性能和应用范围。

未来展望

该论文的未来发展重点是在以下几个方面:首先,继续扩大数据集的质量和多样性,以进一步提高模型的性能;其次,改进模型架构和训练方法,以实现有效的压缩和扩展到非常长的上下文;最后,增加计算资源,特别是在强化学习方面的投入,以便构建更加强大的代理系统,以应对复杂任务的需求。这些努力将有助于推动自然语言处理技术的发展和应用。

Qwen3技术报告的更多相关文章

  1. rsync技术报告(翻译)

    本篇为rsync官方推荐技术报告rsync technical report的翻译,主要内容是Rsync的算法原理以及rsync实现这些原理的方法.翻译过程中,在某些不易理解的地方加上了译者本人的注释 ...

  2. 技术报告:APT组织Wekby利用DNS请求作为C&C设施,攻击美国秘密机构

    技术报告:APT组织Wekby利用DNS请求作为C&C设施,攻击美国秘密机构 最近几周Paloalto Networks的研究人员注意到,APT组织Wekby对美国的部分秘密机构展开了一次攻击 ...

  3. 商汤开源的mmdetection技术报告

    目录 1. 简介 2. 支持的算法 3. 框架与架构 6. 相关链接 前言:让我惊艳的几个库: ultralytics的yolov3,在一众yolov3的pytorch版本实现算法中脱颖而出,收到开发 ...

  4. rsync(四)技术报告

    1.1 摘要 本报告介绍了一种将一台机器上的文件更新到和另一台机器上的文件保持一致的算法.我们假定两台机器之间通过低带宽.高延迟的双向链路进行通信.该算法计算出源文件中和目标文件中一致的部分(译者注: ...

  5. 基于Web的实验室管理系统技术简要报告

    基于Web的实验室管理系统技术简要报告 Copyright 朱向洋 Sunsea ALL Right Reserved 一.网站架构 该网站使用C#语言,利用SQL Server2008数据库,采用V ...

  6. 技术领导(Technical Leader)画像

    程序员都讨厌被管理,而乐于被领导.管理的角色由PM(project manager)扮演,具体来说,PM负责提需求.改改改.大多数情况,PM是不懂技术的,这也是程序员觉得PM难以沟通的原因.而后者由技 ...

  7. 本学期Windows编程微型技术博客上线!

    将两篇报告生成超链接模式方便阅读,以下为链接: https://files.cnblogs.com/files/Kitty-/Windows编程微型技术报告一.pdf https://files.cn ...

  8. C++ 风格与技术 FAQ(中文版)

    Bjarne Stroustrup 的 C++ 风格与技术 FAQ(中文版) 原作:Bjarne Stroustrup    翻译:Antigloss 译者的话:尽管我已非常用心,力求完美,但受水平所 ...

  9. 大会聚焦 | 开源技术盛会LinuxCon首次来到中国,大咖齐聚关注业界动态

    2017年6月19-20日,开源技术盛会LinuxCon + ContainerCon + CloudOpen(LC3)首次在中国举行.两天议程满满,包括 17 个主旨演讲.8 个分会场的 88 场技 ...

  10. PayPal高级工程总监:读完这100篇论文 就能成大数据高手(附论文下载)

    100 open source Big Data architecture papers for data professionals. 读完这100篇论文 就能成大数据高手 作者 白宁超 2016年 ...

随机推荐

  1. java slider

    简介 简单 code /* * @Author: your name * @Date: 2020-11-05 10:21:52 * @LastEditTime: 2020-11-05 10:45:16 ...

  2. 什么是iPaaS?iPaaS选型、落地及案例分析

    在iPaaS行业摸爬滚打已经8个年头了.从最初的技术支持做起,到现在负责整个集成项目的规划和实施,我见证了iPaaS技术在国内的快速发展.今天,我想和大家深入聊聊iPaaS这个话题,希望能给正在考虑数 ...

  3. 【iPaaS &ESB】论企业在数据集成的抉择

    随着信息化时代的到来,企业在发展过程中引入了众多且不协同的应用.系统和软件,每个系统都有着独立的信息,渐渐地出现数据信息不协同.数据集成异构的现象.因此企业对于数据的处理和分析需求也越来越多元及个性化 ...

  4. Win10专业版重装10100错误的问题

    有电脑基地用户反馈这么一个问题,他在安装win10系统时,出现了"Usage Error 10100,invalid switch fmount"错误的提示,导致系统无法正常安装呢 ...

  5. 关于.net6项目发布到docker(nginx)踩到的一些坑

    开发环境:桌面云系统(无法使用docker desktop),win10系统 后端开发工具:vs2022   数据库:mysql     缓存:redis    队列和事件处理:rabbitmq 前端 ...

  6. #define与typedef与Const

    #define与typedef #define(宏定义)只是简单的字符串代换(原地扩展),它本身并不在编译过程中进行,而是在这之前(预处理过程)就已经完成了. typedef是为了增加可读性而为标识符 ...

  7. 记一次酣畅淋漓的js逆向

    摘要 本文记录了对一个混淆后的js脚本的逆向过程,并介绍了过程中遇到的两种js混淆策略与应对方式:与此同时,本文还记录了对于禁止F12调试的站点的破解方法:最后,本文对js逆向与这过程中的AI工具使用 ...

  8. linux下配置ssh会话超时

    Linux下设置超时时间,是在配置文件/etc/profile里.在该文件下,添加一个变量: export TMOUT=3600 时间单位是S,上面配置的超时时间是1个小时. 另外,在ssh配置文件/ ...

  9. VKProxy 集成 OpenTelemetry

    OpenTelemetry OpenTelemetry 是各类 API.SDK 和工具形成的集合.可用于插桩.生成.采集和导出遥测数据(链路.指标和日志),帮助你分析软件的性能和行为. VKProxy ...

  10. sqlserver 循环中定义变量一定要小心,否则你的数据就是错误的

    下面是个小实验可以自己试试 -- 先创建一个表 实验用create table test_5(id int identity(1,1),na varchar(50),)-- 将数据插入表中,插入nul ...