写在前面

如题，近期优秀的大模型层出不穷。作为技术人，需要阅读高质量的AI技术报告或论文，并且掌握未来应用趋势。本文将推荐一些高质量的AI技术报告，以及Agent智能体综述。

大模型技术报告

DeepSeek-V3 Technical Report

作者：DeepSeek

时间：2024.12.27

内容提要：主要介绍了DeepSeek-V3模型，这是一个拥有6710亿参数的专家混合（MoE）语言模型，其中每个token激活370亿参数。通过算法、框架和硬件的协同设计，该模型克服了跨节点MoE训练中的通信瓶颈，实现了近完全的计算-通信重叠，显著提高了训练效率并降低了训练成本。在仅花费266.4万H800 GPU小时的情况下，DeepSeek-V3完成了14.8万亿token的预训练，成为目前最强的开源基础模型。此外，该模型还引入了从DeepSeek-R1系列模型中提取推理能力的创新方法，并在知识、代码、数学和推理等多个基准测试中表现出色，性能与领先的闭源模型相当。

链接：arxiv.org/pdf/2412.19437

DeepSeek_R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning

作者：DeepSeek

时间：2025.01.23

内容提要：R1是近期火爆全网的深度求索模型。文中介绍了DeepSeek-AI团队通过强化学习（RL）开发的第一代推理模型DeepSeek-R1-Zero和DeepSeek-R1，其中DeepSeek-R1-Zero通过纯RL训练展示了强大的推理能力但存在可读性问题，而DeepSeek-R1通过引入冷启动数据和多阶段训练进一步提升了推理性能，达到了与OpenAI-o1-1217相当的水平；文章还展示了通过蒸馏技术将推理能力迁移到小模型上的成功实践，显著提升了小模型的推理表现，并开源了多个模型供研究社区使用，同时探讨了蒸馏与RL的优劣，指出未来研究方向包括提升通用能力、解决语言混合问题及优化软件工程任务性能。

链接：github.com/deepseek-ai/DeepSeek-R1/blob/main/DeepSeek_R1.pdf

DeepSeek MoE: Towards Ultimate Expert Specialization in Mixture-of-Experts Language Models

作者：DeepSeek

时间：2024.01.11

内容提要：详细介绍了DeepSeek-MoE模型的设计，提出细粒度专家分割（Fine-grained Expert Segmentation）和共享专家隔离（Shared Expert Isolation）技术，解决传统MoE模型专家冗余和泛化性不足的问题。仅用13B激活参数量达到与Llama2 70B相当的性能，训练成本降低80%。

链接：arxiv.org/pdf/2401.06066

Kimi k1.5

作者：Moonshot

时间：2025.01.22

内容提要：Kimi一如既往认为长文本是核心。其中，Kimi k1.5 是一个通过强化学习（RL）训练的多模态大型语言模型（LLM）。Kimi k1.5通过扩展上下文窗口和改进的策略优化方法，在多个基准测试中达到了最先进的推理性能，与OpenAI的o1模型相当。此外，文章还提出了long2short方法，通过长链推理（CoT）技术提升短链推理模型的性能，取得了显著的性能提升。这些方法不仅提高了模型的推理能力，还增强了其在多模态任务中的表现。

链接：github.com/MoonshotAI/Kimi-k1.5/blob/main/Kimi_k1.5.pdf

Extending Context Window of Large Language Models via Semantic Compression

作者：Department of Mathematical Sciences, Tsinghua University, Theory Lab, 2012 Labs, Huawei Technologies

时间：2023.12.15

内容提要：这篇文章提出了一种新颖的语义压缩方法，用于扩展大型语言模型（LLMs）的上下文窗口，使其能够处理比原始模型长6-8倍的文本，而无需对预训练模型进行微调或增加计算成本。该方法通过利用信息论中的源编码概念，使用预训练模型在将输入传递给LLMs之前减少长输入的语义冗余。实验结果表明，这种方法在包括问答、总结、少样本学习和信息检索等多种任务中有效地扩展了LLMs的上下文窗口，并在保持文本生成流畅性的同时减少了计算开销。

链接：arxiv.org/pdf/2312.09571

Agent综述

Agent AI: Surveying the Horizons of Multimodal Interaction

作者：斯坦福大学李飞飞团队

时间：2024.01.25

内容提要：这篇80页的综述系统性地总结了多模态AI智能体的发展，探讨了其在具身交互、跨现实任务中的应用，以及如何结合大语言模型（LLM）和视觉语言模型（VLM）构建更复杂的智能体系统。论文还提出了“无限代理”概念，支持跨物理和虚拟环境的多模态生成与编辑。

链接：arxiv.org/pdf/2401.03568

Google Whiterpaper Agents2

作者：Google

时间：2024.09

内容提要：Google 出品的 Agents白皮书。详细介绍了AI代理的核心架构，包括模型层（Model Layer）、工具层（Tool Layer）和编排层（Orchestration Layer），并探讨了其与传统语言模型的区别、学习能力、实际应用以及未来发展，旨在推动AI代理在各领域的广泛应用。

链接：drive.google.com/file/d/1oEjiRCTbd54aSdB_eEe3UShxLBWK9xkt/view

参考实现：github.com/alibaba/spring-ai-alibaba/

近期最值得关注的AI技术报告与Agent综述！的更多相关文章

近期最值得关注的潜力币种——VAST
近期币圈的热度又再次被掀起,很多新的币种也争相上线,还有一些币种虽然还未上线,但是在币圈的火热程度也非同一般.小编留意了一下,最近在币圈讨论的最火的便是VAST代币.许多生态建设者乃至机构都表示很看好 ...
2019年最值得关注的AI领域技术突破及未来展望
选自venturebeat 翻译:魔王.一鸣前言 AI 领域最杰出的头脑如何总结 2019 年技术进展,又如何预测 2020 年发展趋势呢?本文介绍了 Soumith Chintala.Celest ...
zz2017-2018年AI技术前沿进展与趋势
2017年AI技术前沿进展与趋势人工智能最近三年发展得如火如荼,学术界.工业界.投资界各方一起发力,硬件.算法与数据共同发展,不仅仅是大型互联网公司,包括大量创业公司以及传统行业的公司都开始涉足人工 ...
全球AI界最值得关注的十位科学家
全球AI界最值得关注的十位科学家我们可以看到AI已经从象牙塔里的高冷研究,逐步转换为科技公司.互联网公司的最核心竞争力.AI代表了这时代人类的前沿智慧,也正达到一种科学的极致. 这两天在美国加利 ...
[转]有哪些值得关注的技术博客（Java篇）
有哪些值得关注的技术博客(Java篇) 大部分程序员在自学的道路上不知道走了多少坑,这个视频那个网站搞得自己晕头转向.对我个人来说我平常在学习的过程中喜欢看一些教程式的博客.这些博客的特点: 1. ...
2019-2020年值得关注的9个AR发展趋势
作者Andrew Makarov,由计算机视觉life编辑:乔媛媛编译更好的阅读体验请看首发原文链接 2019-2020年值得关注的9个AR发展趋势增强现实技术在2019年实现了创纪录的发展.微软 ...
.NET开发人员值得关注的七个开源项目 .
NET开发人员值得关注的七个开源项目软近几年在.NET社区开源项目方面投入了相当多的时间和资源,不禁让原本对峙的开源社区阵营大吃一惊,从微软.NET社区中的反应来看,微软.NET开发阵营对开源工具的 ...
CSS值得关注的那些事？
CSS值得关注的那些事? CSS层叠样式表的出现,使得样式表现层与HTML结构层分离,CSS样式与HTML结构层次清晰,一目了然.给我们前端开发者带来诸多的便利,然而,在实际前端开发中,还是有相当多的 ...
转：程序员最值得关注的10个C开源项目
程序员最值得关注的10个C开源项目 1. Webbench Webbench 是一个在 linux 下使用的非常简单的网站压测工具.它使用 fork ()模拟多个客户端同时访问我们设定的 URL,测试 ...
十六款值得关注的NoSQL与NewSQL数据库--转载
原文地址:http://tech.it168.com/a2014/0929/1670/000001670840_all.shtml [IT168 评论]传统关系型数据库在诞生之时并未考虑到如今如火如荼 ...

随机推荐

超聚变服务器2288H V6使用 iBMC 安装 Ubuntu Server 24.04 LTS及后续系统配置
一. 超聚变服务器iBMC远程管理超聚变服务器的iBMC芯片集成了一个专用的管理GE网口,提供全面的故障诊断.自动化运维.硬件安全加固等管理特性.iBMC支持Redfish.SNMP.IPMI 2. ...
鸿蒙NEXT开发案例：数字转中文大小写
[引言] 本应用的主要功能是将用户输入的数字转换为中文的小写.大写及大写金额形式.用户可以在输入框中输入任意数字,点击"示例"按钮可以快速填充预设的数字,点击"清空&qu ...
memcached简介及java使用方法
一. 概念 Memcached是danga.com(运营LiveJournal的技术团队)开发的一套分布式内存对象缓存系统,用于在动态系统中减少数据库负载,提升性能. 二. 适用场合 1. 分布式应用 ...
Redis为什么这么快之IO多路复用
情景复现面试官:Redis为什么这么快? 我:1. 基于内存 2. 高效数据结构 3. 单线程 4. IO多路复用面试官:那你讲讲Redis的IO多路复用模型是什么. 我:哦,嗯,啊,呀...IO ...
postgresql序列重复问题处理
问题在执行数据插入时,postgresql 提示more than one owned sequence found错误.这个和之前文章中写的序列编号错乱不同,是由数据表的一个列生成了多个序列导致的 ...
Python中所有子图标签Legend显示详解
在数据可视化中,图例(legend)是一个非常重要的元素,它能够帮助读者理解图表中不同元素的含义.特别是在使用Python进行可视化时,matplotlib库是一个非常强大的工具,能够轻松创建包含多个 ...
【Linux】【专项突破】CentOS下软件安装
目录 rpm yum软件仓库配置文件缓存处理清理缓存重构缓存查询包的依赖关系 rpm # 普通下载安装 rpm -ivh 包名 # 更新 rpm -Uvh 包全名 # 查询 rpm -q 包 ...
【Python】【爬虫】【爬狼】002_自定义获取网页源码的函数
在上一篇笔记([Python][爬虫系列][爬狼]001_urllib_get_获取响应结果页面代码 - 萌狼蓝天 - 博客园 (cnblogs.com/mllt))我们将一个网页,解析为了文档(源码 ...
Docker非root用户修改/etc/hosts文件
本文会讲解在Docker容器环境下,非root用户如何编辑修改/etc/hosts文件. 1.背景和需求描述环境:Docker 运行用户:非root用户,如普通用户1001 需求:应用运行在容器内, ...
【转载】wget命令详解
导读: wget是Linux中的一个下载文件的工具,wget是在Linux下开发的开放源代码的软件,作者是Hrvoje Niksic,后来被移植到包括Windows在内的各个平台上. 它用在命令行下. ...

近期最值得关注的AI技术报告与Agent综述！

写在前面

大模型技术报告

Agent综述

近期最值得关注的AI技术报告与Agent综述！的更多相关文章

随机推荐

热门专题