HF Papers 直播| AI for Science 专场
AIGC热点大赛# 由 Hugging Face × OpenMMLab × ModelScope × 知乎 × 机智流等 联合发起的【AI Insight Talk】系列直播活动第三场即将开始!
AI 科学家时代正加速到来,但科研智能体真的做好准备了吗?真实科研场景中,多模态智能体能否在推理、规划与执行等关键能力上达到人类科研人员的水平?我们又该如何准确评估它们的科学认知能力和数据分析表现?
本期我们将聚焦 AI for Science,邀请多位在 Hugging Face Daily Papers 中热门论文的作者,共同探讨 AI for Science 能力的真实象限。
直播时间:2025 年 7 月 17 日( 周四 )19:30 - 21:30(北京时间)
直播预约地址:https://hf.link/pzahk
嘉宾阵容 & 分享议题
孙秋实
香港大学博士生,硕士毕业于新加坡国立大学数据科学系。研究方向涵盖 Computer-using Agents 与Code Intelligence,在 ACL、EMNLP、ICLR、COLM 等自然语言处理与机器学习顶级会议发表多篇论文,谷歌学术引用超过 1000 次,担任多个国际会议与期刊的审稿人及程序委员会委员。其关于计算机智能体的系列研究成果被广泛应用于学术研究与工业界实践中。个人主页:https://qiushisun.github.io/
简要概述
ScienceBoard 是一个用于评估多模态智能体在科学探索任务表现的框架,包含两个核心贡献:真实的可交互环境以及在此基础上构建的评测基准。该环境基于虚拟机,集成了多领域的专业科学软件,支持通过 GUI 和 CLI 进行复杂科研流程的自动化操作。评测基准在此环境中设计了 169 个覆盖生物化学、代数、天文学等六大领域的高质量任务,系统性地测试了智能体在真实科研场景下的推理、规划和执行能力。实验结果表明,即使是最先进模型驱动的智能体,其平均成功率依然远低于人类水平,进一步揭示了当前智能体在科学自动化中的局限,并为未来的科学智能体设计提供了关键启示。
论文地址:https://huggingface.co/papers/2505.19897
周宇浩
现为四川大学三年级博士生,本科毕业于四川大学计算科学专业,同时在上海人工智能实验室 AI4S 部门进行学术研究,目前主要研究方向为多模态大语言模型的训练和评测。
简要概述
Scientists’ First Exam(SFE)旨在系统评估多模态大模型(MLLMs)在多学科科学领域的能力。SFE 创新性地以“信号感知-属性理解-对比推理”三级体系,涵盖五大领域、66 项任务,采用原始科学数据与中英双语问答。测试发现,主流模型在 SFE 高阶科学任务中表现有限(SOTA 得分仅约 30),凸显了其在科学认知和多模态数据分析方面的不足,为科学 AI 发展指明了突破方向。
论文地址:https://huggingface.co/papers/2506.10521
欧翌昕
浙江大学知识引擎实验室三年级硕士生,由陈华钧教授和张宁豫教授指导,此前在浙江大学计算机科学与技术学院获得学士学位。当前研究方向涵盖大模型智能体、大模型可解释性等,在 ACL、NAACL、TASLP 等国际顶级会议和期刊上发表多篇相关研究成果,谷歌学术引用超过 800 次,担任多个国际会议的审稿人。个人主页:https://oe-heart.github.io/
简要概述
大模型驱动的数据科学智能体有望自动化整个机器学习流程,但其在实际应用中的效果仍然有限。现有的框架依赖于僵化的预定义工作流和不灵活的编码策略,因此仅在相对简单的经典问题上表现出色,未能充分捕捉人类专家在复杂创新任务中的经验。本研究提出了 AutoMind,一个自适应、知识丰富的大模型智能体框架,通过三项关键创新克服了这些不足:(1)一个精心策划的专家知识库,将智能体与领域专家的知识相结合;(2)一种智能体知识树搜索算法,策略性地探索可能的解决方案;(3)一种自适应编码策略,动态调整代码生成策略以适应不同任务的复杂性。评估结果表明,AutoMind 在性能上超越了先前 SOTA,更细致的分析确认了其在质量和效率方面的优势,突显了 AutoMind 在迈向完全自动化数据科学中的高效性和稳健性。
论文地址:https://huggingface.co/papers/2506.10974
参与讨论
为了方便大家交流沟通,我们建立了相关的交流群,本期分享的作者们也在群里,欢迎大家入群交流。

7 月 17 日下午 7:30,AI Insight Talk 不见不散!
HF Papers 直播| AI for Science 专场的更多相关文章
- AI中台——智能聊天机器人平台的架构与应用(分享实录)
内容来源:宜信技术学院第3期技术沙龙-线上直播|AI中台——智能聊天机器人平台 主讲人:宜信科技中心AI中台团队负责人王东 导读:随着“中台”战略的提出,目前宜信中台建设在思想理念及架构设计上都已经取 ...
- AI 企业多云存储架构实践 | 深势科技分享
2020 年末,谷歌旗下 DeepMind 研发的 AI 程序 AlphaFold2 在国际蛋白质结构预测竞赛上取得惊人的准确度,使得" AI 预测蛋白质结构"这一领域受到了空前的 ...
- 长沙4月21日开发者大会暨.NET社区成立大会活动纪实
活动总结 2019年4月21日是一个斜风细雨.微风和煦的美好日子,由长沙.NET技术社区.腾讯云云加社区.微软Azure云技术社区.中国.NET技术社区.长沙柳枝行动.长沙互联网活动基地(唐胡子俱乐部 ...
- How do I learn mathematics for machine learning?
https://www.quora.com/How-do-I-learn-mathematics-for-machine-learning How do I learn mathematics f ...
- [转]awsome c++
原文链接 Awesome C++ A curated list of awesome C++ (or C) frameworks, libraries, resources, and shiny th ...
- 斯坦福CS课程列表
http://exploredegrees.stanford.edu/coursedescriptions/cs/ CS 101. Introduction to Computing Principl ...
- Reading With Purpose: A grand experiment
Reading With Purpose: A grand experiment This is the preface to a set of notes I'm writing for a sem ...
- Awesome C/C++
Awesome C/C++ A curated list of awesome C/C++ frameworks, libraries, resources, and shiny things. In ...
- C/C++ 框架,类库,资源集合
很棒的 C/C++ 框架,类库,资源集合. Awesome C/C++ Standard Libraries Frameworks Artificial Intelligence Asynchrono ...
- awesome cpp
https://github.com/fffaraz/awesome-cpp Awesome C/C++ A curated list of awesome C/C++ frameworks, lib ...
随机推荐
- JVM 的组成
JVM 的组成 JVM(Java Virtual Machine)是 Java 的核心组件,负责执行 Java 字节码程序.以下是 JVM 的主要组成部分: 1. 类加载子系统(Class Loade ...
- symfony或doctrine报错:Object of class App\Entity\* could not be converted to string
报错: Catchable Fatal Error: Object of class App\Entity\ProjectType could not be converted to string 版 ...
- 关于:js怎么获取元素的自定义属性的问题(原生JavaScript)
最近项目需要把后端传过来的数据隐藏的保存在页面中,方便后边做事件处理时使用.鉴于之前总是在后端处理后的页面中看到元素里除了常见的id.name属性外的data-xxx,就想到:元素的属性必然是可以自定 ...
- MVVM绑定 填坑,必须在与 DependencyObject 相同的线程上创建 DependencySource
场景:线程里面构建MVVM实体类,实体类包含 Brush 属性时,构建 SolidColorBrush 需要UI线程,否则会报 "必须在与 DependencyObject 相同的线程上创建 ...
- CF1424G题解
思路 这个题意思很显然,是求 nnn 个区间重叠最多的地方和值. 那么我们能想到用差分数组,在扫一遍的过程中维护最大值和 pospospos. 但是需要注意的是,区间最大会到 10910^9109,直 ...
- 海康摄像头SDK在Linux、windows下的兼容问题(二)已解决
上一篇提出的问题,在前几天解决了. 海康的技术人员给出了指导,在Linux库加载失败的时候,需要在代码中手动指定配置文件. 库文件加载说明] // 1. lib文件夹里面所有库文件libhcnetsd ...
- 一行代码搞定防抖节流:JavaScript新特性解析
防抖(Debounce)和节流(Throttle)是两种前端开发中常用的性能优化技术,尤其在处理高频触发事件如滚动.调整窗口大小.输入等场景中.传统实现这些功能需要编写复杂的函数,但随着JavaScr ...
- 勒索病毒分析-2024wdb-re2
检查相关信息 可以看到病毒存在VMProtect虚拟壳 简单脱壳 首先我在x64debug中运行一次,发现没有中断退出,证明大概率没有反调试,但是有crc检测,所以尽量不下int3断点(脱壳时). 一 ...
- 【渗透 Tips】解决Edge的IE模式下无法抓包情况
问题说明 在日常渗透中往往避免不了站点的环境适配问题,有一些站点只能使用IE模式访问,此时便会想着可能使用内置proxy插件代理至抓包软件即可,事实上这并不能很好解决. 如上图所示,即使挂上了yaki ...
- 从写代码到写Prompt,解锁鸿蒙原生应用高效开发秘籍
当前,大模型技术正在重新定义软件工程.一方面,大模型降低了软件开发门槛.在过去,软件开发者被划分为全民开发者.应用开发者和专业开发者,随着大模型技术的介入,软件开发变得触手可及,一些简单的应用甚至能够 ...