大家好,我是汤师爷,专注AI智能体分享,致力于帮助100W人用智能体创富~

本周,DeepSeek正式发布了最新版本DeepSeek-V3.1模型。

这次更新带来了混合推理能力,让用户可以在思考模式和非思考模式之间自由切换,实现"一种模型,两种体验"的创新设计。

混合推理,按需思考

DeepSeek-V3.1的核心创新在于混合推理能力。

用户只需点击"深度思考"按钮,就能在两种模式间灵活切换:

  • 思考模式:展示完整的推理过程,适合复杂问题解决
  • 非思考模式:直接给出简洁答案,适合日常对话

这种设计不仅提升了用户体验,还大幅提高了效率。官方测试数据显示,新版本V3.1-Think与上一代R1-0528相比,在保持同等回答质量的情况下,响应速度更快,且token消耗减少了20%-50%。

简单来说,DeepSeek做到了"既让马儿跑,又要马儿少吃草"的效果。

性能对比,稳中有升

从成绩单来看,V3.1与R1-0528相比基本持平,甚至有小幅提升:

  • AIME 2025:V3.1得分88.4(R1为87.5)
  • GPQA:V3.1得分80.1(R1为81)
  • liveCodeBench:V3.1得分74.8(R1为73.3)

知名机构Artificial Analysis的分析也证实了这一点:DeepSeek-V3.1在推理模式下的得分为60,较R1的59略有提升;在非推理模式下,V3.1的得分为49,相较早期的V3 0324版本得分44有明显进步。

不过,V3.1(推理模式)的表现仍落后于阿里最新的Qwen3 235B 2507(推理模式)版本。

Agent能力大幅增强

DeepSeek表示,V3.1通过后训练优化,在工具使用和多步骤代理任务上实现了显著提升,是迈向Agent(智能体)时代的第一步。

1、编程智能体提升

在SWE-bench代码修复测试中,DeepSeek-V3.1使用内部代码代理框架进行评估,相比开源框架OpenHands所需轮数更少,代码修复能力明显提高。

同时,在Terminal-Bench终端测试中,使用官方Terminus 1 framework进行测试,V3.1在命令行终端环境下的复杂任务处理能力显著增强。

2、搜索能力增强

DeepSeek-V3.1为思考模式中的搜索工具调用设计了专门格式,支持复杂的多轮搜索代理任务。测试结果显示:

  • 在需要多步推理的复杂搜索测试(browsecomp)上大幅领先R1-0528
  • 在多学科专家级难题测试(HLE)上性能显著提升
  • 能够有效支持访问外部或最新信息的复杂问题处理

技术升级,更长上下文与更高效率

DeepSeek-V3.1基于全新的V3.1-Base模型开发,采用"两阶段长上下文扩展方法",在原始V3模型基础上进行大规模扩展训练。整个训练过程新增了8400亿个tokens:

  • 32K上下文扩展阶段:训练量增加10倍,达到6300亿tokens
  • 128K扩展阶段:增加3.3倍,达到2090亿tokens

在技术规格上,新版本采用UE8M0 FP8缩放格式训练,并升级了分词器。

值得一提的是,DeepSeek官方在公众号评论区透露:"UE8MO FP8是针对即将发布的下一代国产芯片设计。"

DeepSeek同步推出了全新的API服务体系,核心接口发生重要变化:

  • deepseek-chat:对应非思考模式
  • deepseek-reasoner:对应思考模式

两个接口均支持128K上下文窗口长度,并提供更多API资源。

在功能特性方面:

  • Beta API接口支持strict模式的Function Calling,确保输出的Function严格满足schema定义
  • 新增对Anthropic API格式的完整支持,用户可以轻松将DeepSeek-V3.1接入Claude Code框架

继续开源,业界良心

延续开源精神,DeepSeek-V3.1-Base模型和后训练模型均已开源。

官方网页端、App、小程序及API开放平台所调用模型也已同步更新,新模型自我认知为DeepSeek-V3。

DeepSeek宣布将于北京时间2025年9月6日凌晨开始执行全新价格表,同时正式取消夜间时段优惠政策。

在9月6日前,所有API服务仍按原价格政策计费,用户可继续享受当前优惠。

对于新的定价策略,有网友评论说:熟悉的鲸鱼又回来了。

DeepSeek-V3.1通过混合推理能力、增强的Agent表现和更长的上下文处理,在保持性能的同时提高了效率。

无论是日常对话还是复杂问题解决,都能提供更好的体验。

想体验的朋友可以前往DeepSeek官网尝鲜,感受这款"一种模型,两种体验"的创新产品!

本文已收录于,我的技术博客:tangshiye.cn 里面有,AI 学习资料,Coze 智能体教程,算法 Leetcode 详解,BAT 面试真题,架构设计,等干货分享。

DeepSeek-V3.1发布,Agent 时代彻底来了的更多相关文章

  1. FineUI(专业版)v3.1发布(ASP.NET控件库)!

    FineUI(专业版)v3.1 正式发布,60多项更新,官网示例多达 690 个,新增 30 个页面加载动画! 自 2008 年 4 月发布第一个版本,我们持续更新了 126 个版本,拥有 16000 ...

  2. Basic4android v3.50 发布

    这次发布的主要是debug 的增强.说实话,在这一方面B4a 比delphi做的要好.希望delphi 在新的版本里面 能进一步加强. I'm happy to release Basic4andro ...

  3. Basic4android v3.00 发布

    这次发布的版本主要是增加了快速debuger. 在运行时,可以在IDE 里面随时修改代码,而不需要重新发布应用. 大大提高了开发效率. Basic4android v3.00 is released. ...

  4. Helm V3 新版本发布

    Helm v3.0.0 Alpha 1 is coming! Helm 作为 Kubernetes 体系的包管理工具,已经逐渐成为了事实上的应用分发标准.根据 2018 年 CNCF 的一项云原生用户 ...

  5. 痞子衡嵌入式:MCUBootUtility v3.0发布,开始支持LPC, Kinetis啦

    -- 痞子衡维护的NXP-MCUBootUtility工具距离上一个版本(v2.4.0)发布过去2个半月了,这一次痞子衡为大家带来了全新版本v3.0.0,从这个版本开始,NXP-MCUBootUtil ...

  6. 痞子衡嵌入式:MCUBootFlasher v3.0发布,为真实的产线操作场景而生

    -- 痞子衡维护的NXP-MCUBootFlasher工具(以前叫RT-Flash)距离上一个版本(v2.0.0)发布过去一年半以上了,这一次痞子衡为大家带来了全新版本v3.0.0,从这个版本开始,N ...

  7. 痞子衡嵌入式:MCUBootUtility v3.3发布,可配合SBL项目使用

    -- 痞子衡维护的NXP-MCUBootUtility工具距离上一个大版本(v3.0.0)发布过去4个多月了,期间痞子衡其实断断续续做个几个小版本更新,这一次痞子衡为大家带来了稳定版本v3.3.0,顺 ...

  8. 痞子衡嵌入式:MCUBootUtility v3.4发布,支持串行NAND

    -- 痞子衡维护的 NXP-MCUBootUtility 工具距离上一个大版本(v3.3.0)发布过去 4 个多月了,这一次痞子衡为大家带来了版本升级 v3.4.0,这个版本主要有几个非常重要的更新需 ...

  9. 痞子衡嵌入式:MCUBootUtility v3.5发布,支持串行NOR的ECC及双程序启动

    -- 痞子衡维护的 NXP-MCUBootUtility 工具距离上一个大版本(v3.4.0)发布过去半年了,这一次痞子衡为大家带来了版本升级 v3.5.0,这个版本主要有几个非常重要的更新需要跟大家 ...

  10. Basic4android v3.20 发布

    这次主要是可视化设计器的增强. 具体新功能如下: This version includes many important improvements: Visual designer Anchors ...

随机推荐

  1. Springboot笔记<11>面向切面编程AOP

    面向切面编程AOP AOP为Aspect Oriented Programming的缩写,意为:面向切面编程,通过预编译方式和运行期动态代理实现程序功能的统一维护的一种技术.AOP是Spring框架中 ...

  2. 鸿蒙Next仓颉语言开发实战教程:店铺详情页

    各位好,幽蓝君又来分享仓颉开发教程了,今天的内容是店铺详情页: 这个页面的内容看似简单,其实有很多小细节需要注意,主要还是让大家熟悉List容器的使用. 整个页面由导航栏和List容器两大部分组成,导 ...

  3. 使用acme.sh颁发TLS证书并安装到nginx/apache实现网站https访问

    原文永久链接:https://forum.piwind.com/d/22-shi-yong-acmeshban-fa-tlszheng-shu-bing-an-zhuang-dao-nginxapac ...

  4. Java简历、面试、试用期、转正

    前言 这个内容其实一直在我的GitHub中,但我最近应要求面了一些人,整体感受让我头疼得很,所以添加一些细节点后拿到博客园来了,顺便夹杂着吐吐槽, 面试前准备 提前准备 1.使用招聘网站列出招聘的技术 ...

  5. 基于lede开发自己的路由器系统openWrt

    搭建linux环境 强烈推荐ubuntu,debian会遇到大量的依赖问题 安装编译依赖 更新软件包 sudo apt update -y 整体更新软件包 sudo apt full-upgrade ...

  6. 前端开发系列036-基础篇之call && apply

    本文介绍JavaScript 中的 call .apply 和 bind 方法的基本使用,使用注意点以及常见的使用场景等,并简单介绍这些方法的实现原理提供对应的源码. call && ...

  7. java 中的多态 & 动态绑定

    简介 一个对象变量 可以指示多种实际类型的现象被称为多态.在运行时能够自动地选择调用哪个方法的现象称为动态绑定. 如果用private,static,final修饰的方法称为静态绑定.

  8. ARIMA 模型简单介绍

    简介 中文名字叫做 差分(I) 自相关回归(AR) 移动平均(MA) 模型 总而言之 根据以前的数据预测新数据 比较常用的模型 比较好的视频资料 https://www.bilibili.com/vi ...

  9. Number Theory: The set of Real实数系构造:实数公理化(R, +, ×, ≥)之Field/Order/Continuity + Dedekind分割

    limit极限理论: 建立在 R完备性公理化的实数集: Set theory集合论之上的 即: limit 极限 是 x, y 的 Macro/Micro.动态变化/静态关系.无限/有限.量变/质变. ...

  10. POLIR-Society-Organization-Psychology-Emotions情绪-Emotion Wheel情绪轮: What It Is and How to Use One

    Example of Application: https://www.interaction-design.org Course: "Emotional Design - How to M ...