近期最值得关注的AI技术报告与Agent综述!
写在前面
如题,近期优秀的大模型层出不穷。作为技术人,需要阅读高质量的AI技术报告或论文,并且掌握未来应用趋势。本文将推荐一些高质量的AI技术报告,以及Agent智能体综述。
大模型技术报告
DeepSeek-V3 Technical Report
作者:DeepSeek
时间:2024.12.27
内容提要:主要介绍了DeepSeek-V3模型,这是一个拥有6710亿参数的专家混合(MoE)语言模型,其中每个token激活370亿参数。通过算法、框架和硬件的协同设计,该模型克服了跨节点MoE训练中的通信瓶颈,实现了近完全的计算-通信重叠,显著提高了训练效率并降低了训练成本。在仅花费266.4万H800 GPU小时的情况下,DeepSeek-V3完成了14.8万亿token的预训练,成为目前最强的开源基础模型。此外,该模型还引入了从DeepSeek-R1系列模型中提取推理能力的创新方法,并在知识、代码、数学和推理等多个基准测试中表现出色,性能与领先的闭源模型相当。
DeepSeek_R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning
作者:DeepSeek
时间:2025.01.23
内容提要:R1是近期火爆全网的深度求索模型。文中介绍了DeepSeek-AI团队通过强化学习(RL)开发的第一代推理模型DeepSeek-R1-Zero和DeepSeek-R1,其中DeepSeek-R1-Zero通过纯RL训练展示了强大的推理能力但存在可读性问题,而DeepSeek-R1通过引入冷启动数据和多阶段训练进一步提升了推理性能,达到了与OpenAI-o1-1217相当的水平;文章还展示了通过蒸馏技术将推理能力迁移到小模型上的成功实践,显著提升了小模型的推理表现,并开源了多个模型供研究社区使用,同时探讨了蒸馏与RL的优劣,指出未来研究方向包括提升通用能力、解决语言混合问题及优化软件工程任务性能。
链接:github.com/deepseek-ai/DeepSeek-R1/blob/main/DeepSeek_R1.pdf
DeepSeek MoE: Towards Ultimate Expert Specialization in Mixture-of-Experts Language Models
作者:DeepSeek
时间:2024.01.11
内容提要:详细介绍了DeepSeek-MoE模型的设计,提出细粒度专家分割(Fine-grained Expert Segmentation)和共享专家隔离(Shared Expert Isolation)技术,解决传统MoE模型专家冗余和泛化性不足的问题。 仅用13B激活参数量达到与Llama2 70B相当的性能,训练成本降低80%。
Kimi k1.5
作者:Moonshot
时间:2025.01.22
内容提要:Kimi一如既往认为长文本是核心。其中,Kimi k1.5 是一个通过强化学习(RL)训练的多模态大型语言模型(LLM)。Kimi k1.5通过扩展上下文窗口和改进的策略优化方法,在多个基准测试中达到了最先进的推理性能,与OpenAI的o1模型相当。此外,文章还提出了long2short方法,通过长链推理(CoT)技术提升短链推理模型的性能,取得了显著的性能提升。这些方法不仅提高了模型的推理能力,还增强了其在多模态任务中的表现。
链接:github.com/MoonshotAI/Kimi-k1.5/blob/main/Kimi_k1.5.pdf
Extending Context Window of Large Language Models via Semantic Compression
作者:Department of Mathematical Sciences, Tsinghua University, Theory Lab, 2012 Labs, Huawei Technologies
时间:2023.12.15
内容提要:这篇文章提出了一种新颖的语义压缩方法,用于扩展大型语言模型(LLMs)的上下文窗口,使其能够处理比原始模型长6-8倍的文本,而无需对预训练模型进行微调或增加计算成本。该方法通过利用信息论中的源编码概念,使用预训练模型在将输入传递给LLMs之前减少长输入的语义冗余。实验结果表明,这种方法在包括问答、总结、少样本学习和信息检索等多种任务中有效地扩展了LLMs的上下文窗口,并在保持文本生成流畅性的同时减少了计算开销。
Agent综述
Agent AI: Surveying the Horizons of Multimodal Interaction
作者:斯坦福大学李飞飞团队
时间:2024.01.25
内容提要:这篇80页的综述系统性地总结了多模态AI智能体的发展,探讨了其在具身交互、跨现实任务中的应用,以及如何结合大语言模型(LLM)和视觉语言模型(VLM)构建更复杂的智能体系统。论文还提出了“无限代理”概念,支持跨物理和虚拟环境的多模态生成与编辑。
Google Whiterpaper Agents2
作者:Google
时间:2024.09
内容提要:Google 出品的 Agents白皮书。详细介绍了AI代理的核心架构,包括模型层(Model Layer)、工具层(Tool Layer) 和 编排层(Orchestration Layer),并探讨了其与传统语言模型的区别、学习能力、实际应用以及未来发展,旨在推动AI代理在各领域的广泛应用。
链接:drive.google.com/file/d/1oEjiRCTbd54aSdB_eEe3UShxLBWK9xkt/view
近期最值得关注的AI技术报告与Agent综述!的更多相关文章
- 近期最值得关注的潜力币种——VAST
近期币圈的热度又再次被掀起,很多新的币种也争相上线,还有一些币种虽然还未上线,但是在币圈的火热程度也非同一般.小编留意了一下,最近在币圈讨论的最火的便是VAST代币.许多生态建设者乃至机构都表示很看好 ...
- 2019年最值得关注的AI领域技术突破及未来展望
选自venturebeat 翻译:魔王.一鸣 前言 AI 领域最杰出的头脑如何总结 2019 年技术进展,又如何预测 2020 年发展趋势呢?本文介绍了 Soumith Chintala.Celest ...
- zz2017-2018年AI技术前沿进展与趋势
2017年AI技术前沿进展与趋势 人工智能最近三年发展得如火如荼,学术界.工业界.投资界各方一起发力,硬件.算法与数据共同发展,不仅仅是大型互联网公司,包括大量创业公司以及传统行业的公司都开始涉足人工 ...
- 全球AI界最值得关注的十位科学家
全球AI界最值得关注的十位科学家 我们可以看到AI已经从象牙塔里的高冷研究,逐步转换为科技公司.互联网公司的最核心竞争力.AI代表了这时代人类的前沿智慧,也正达到一种科学的极致. 这两天在美国加利 ...
- [转]有哪些值得关注的技术博客(Java篇)
有哪些值得关注的技术博客(Java篇) 大部分程序员在自学的道路上不知道走了多少坑,这个视频那个网站搞得自己晕头转向.对我个人来说我平常在学习的过程中喜欢看一些教程式的博客.这些博客的特点: 1. ...
- 2019-2020年值得关注的9个AR发展趋势
作者Andrew Makarov,由计算机视觉life编辑:乔媛媛编译 更好的阅读体验请看首发原文链接 2019-2020年值得关注的9个AR发展趋势 增强现实技术在2019年实现了创纪录的发展.微软 ...
- .NET开发人员值得关注的七个开源项目 .
NET开发人员值得关注的七个开源项目 软近几年在.NET社区开源项目方面投入了相当多的时间和资源,不禁让原本对峙的开源社区阵营大吃一惊,从微软.NET社区中的反应来看,微软.NET开发阵营对开源工具的 ...
- CSS值得关注的那些事?
CSS值得关注的那些事? CSS层叠样式表的出现,使得样式表现层与HTML结构层分离,CSS样式与HTML结构层次清晰,一目了然.给我们前端开发者带来诸多的便利,然而,在实际前端开发中,还是有相当多的 ...
- 转:程序员最值得关注的10个C开源项目
程序员最值得关注的10个C开源项目 1. Webbench Webbench 是一个在 linux 下使用的非常简单的网站压测工具.它使用 fork ()模拟多个客户端同时访问我们设定的 URL,测试 ...
- 十六款值得关注的NoSQL与NewSQL数据库--转载
原文地址:http://tech.it168.com/a2014/0929/1670/000001670840_all.shtml [IT168 评论]传统关系型数据库在诞生之时并未考虑到如今如火如荼 ...
随机推荐
- typeScript 数组类型(五)
typeScript 数组类型声明分默认数组类型和数组泛型声明,下面一一介绍 基础数组类型声明 // 声明数组类型 全数字类型 let arr: number[] = [1, 2, 4, 5, 7] ...
- 解读Graph+AI白皮书:LLM浪潮下,Graph尚有何为?
历时半年,由蚂蚁集团和之江实验室牵头,联合北京邮电大学.浙江大学.西湖大学.东北大学.杭州悦数科技.浙江创邻科技.北京大学.北京交通大学.复旦大学.北京海致星图科技.腾讯.信雅达科技.北京枫清科技等单 ...
- Codeforces Round 878 (Div3)
B. Binary Cafe \(1 \leq n,k \leq 10^9\) 题解:思维 考虑两种情况 第一种:钱足够多,每种咖啡都可以买的情况下,答案为\(2^k\) 第二种:钱不够多,因为任一面 ...
- OSG开发笔记(三十六):osg3.4.0基于windows平台msvc2017x64编译器编译并移植Demo
前言 本篇编译osg3.4.0的msvc2017x64版本,之前使用的都是mingw32版本. OSG编译 步骤一:下载解压 下载3.4.0版本. 步骤二:使用cmake配置 ...
- ZCMU-1101
这个题不怎么难,就是当时没有理解到字典序的意思:我一直以为是自己元素间的比较,后再同学帮助下明白这里是与其他比,这样就很简单了.就是要求当前那个最小就可以了. 对这道题我有点吐槽明明自己都说了最后一组 ...
- Sealos Devbox 使用教程:使用 Cursor 一键搞定数据库开发环境
"诶,你这前后端开发环境怎么搭建这么快?" "用了 Devbox 啊." "不是吧,你怎么在 Cursor 里连接开发环境的数据库,这些都配好了?&q ...
- 通用的定时任务工具 schedule-server
背景: 我曾经在一个自动化测试平台中集成定时任务,基于 APScheduler 库花了好长时间解决重复执行的问题.定时任务集成在服务中也让服务变得复杂.最后,我们选择了公司其他团队go语言开发的一个定 ...
- idea properties文件乱码解决
java文件是好的,但是遇到properties文件,默认就成了iso制式乱码了. 虽说不影响程序执行,但是看起来真的让人心烦. 问题点是出在properties文件是GBK的,需要单独设置一下. ...
- DotNet Core Threadpool
DotNet Core Threadpool Jai Rathore https://medium.com/@jaiadityarathore/dotnet-core-threadpool-bef2f ...
- cocos2d 的故事
https://en.wikipedia.org/wiki/Cocos2d The history of Cocos2d in a glimpse – RETRO.MOE http://los-coc ...