HF Papers 直播| AI for Science 专场
AIGC热点大赛# 由 Hugging Face × OpenMMLab × ModelScope × 知乎 × 机智流等 联合发起的【AI Insight Talk】系列直播活动第三场即将开始!
AI 科学家时代正加速到来,但科研智能体真的做好准备了吗?真实科研场景中,多模态智能体能否在推理、规划与执行等关键能力上达到人类科研人员的水平?我们又该如何准确评估它们的科学认知能力和数据分析表现?
本期我们将聚焦 AI for Science,邀请多位在 Hugging Face Daily Papers 中热门论文的作者,共同探讨 AI for Science 能力的真实象限。
直播时间:2025 年 7 月 17 日( 周四 )19:30 - 21:30(北京时间)
直播预约地址:https://hf.link/pzahk
嘉宾阵容 & 分享议题
孙秋实
香港大学博士生,硕士毕业于新加坡国立大学数据科学系。研究方向涵盖 Computer-using Agents 与Code Intelligence,在 ACL、EMNLP、ICLR、COLM 等自然语言处理与机器学习顶级会议发表多篇论文,谷歌学术引用超过 1000 次,担任多个国际会议与期刊的审稿人及程序委员会委员。其关于计算机智能体的系列研究成果被广泛应用于学术研究与工业界实践中。个人主页:https://qiushisun.github.io/
简要概述
ScienceBoard 是一个用于评估多模态智能体在科学探索任务表现的框架,包含两个核心贡献:真实的可交互环境以及在此基础上构建的评测基准。该环境基于虚拟机,集成了多领域的专业科学软件,支持通过 GUI 和 CLI 进行复杂科研流程的自动化操作。评测基准在此环境中设计了 169 个覆盖生物化学、代数、天文学等六大领域的高质量任务,系统性地测试了智能体在真实科研场景下的推理、规划和执行能力。实验结果表明,即使是最先进模型驱动的智能体,其平均成功率依然远低于人类水平,进一步揭示了当前智能体在科学自动化中的局限,并为未来的科学智能体设计提供了关键启示。
论文地址:https://huggingface.co/papers/2505.19897
周宇浩
现为四川大学三年级博士生,本科毕业于四川大学计算科学专业,同时在上海人工智能实验室 AI4S 部门进行学术研究,目前主要研究方向为多模态大语言模型的训练和评测。
简要概述
Scientists’ First Exam(SFE)旨在系统评估多模态大模型(MLLMs)在多学科科学领域的能力。SFE 创新性地以“信号感知-属性理解-对比推理”三级体系,涵盖五大领域、66 项任务,采用原始科学数据与中英双语问答。测试发现,主流模型在 SFE 高阶科学任务中表现有限(SOTA 得分仅约 30),凸显了其在科学认知和多模态数据分析方面的不足,为科学 AI 发展指明了突破方向。
论文地址:https://huggingface.co/papers/2506.10521
欧翌昕
浙江大学知识引擎实验室三年级硕士生,由陈华钧教授和张宁豫教授指导,此前在浙江大学计算机科学与技术学院获得学士学位。当前研究方向涵盖大模型智能体、大模型可解释性等,在 ACL、NAACL、TASLP 等国际顶级会议和期刊上发表多篇相关研究成果,谷歌学术引用超过 800 次,担任多个国际会议的审稿人。个人主页:https://oe-heart.github.io/
简要概述
大模型驱动的数据科学智能体有望自动化整个机器学习流程,但其在实际应用中的效果仍然有限。现有的框架依赖于僵化的预定义工作流和不灵活的编码策略,因此仅在相对简单的经典问题上表现出色,未能充分捕捉人类专家在复杂创新任务中的经验。本研究提出了 AutoMind,一个自适应、知识丰富的大模型智能体框架,通过三项关键创新克服了这些不足:(1)一个精心策划的专家知识库,将智能体与领域专家的知识相结合;(2)一种智能体知识树搜索算法,策略性地探索可能的解决方案;(3)一种自适应编码策略,动态调整代码生成策略以适应不同任务的复杂性。评估结果表明,AutoMind 在性能上超越了先前 SOTA,更细致的分析确认了其在质量和效率方面的优势,突显了 AutoMind 在迈向完全自动化数据科学中的高效性和稳健性。
论文地址:https://huggingface.co/papers/2506.10974
参与讨论
为了方便大家交流沟通,我们建立了相关的交流群,本期分享的作者们也在群里,欢迎大家入群交流。

7 月 17 日下午 7:30,AI Insight Talk 不见不散!
HF Papers 直播| AI for Science 专场的更多相关文章
- AI中台——智能聊天机器人平台的架构与应用(分享实录)
内容来源:宜信技术学院第3期技术沙龙-线上直播|AI中台——智能聊天机器人平台 主讲人:宜信科技中心AI中台团队负责人王东 导读:随着“中台”战略的提出,目前宜信中台建设在思想理念及架构设计上都已经取 ...
- AI 企业多云存储架构实践 | 深势科技分享
2020 年末,谷歌旗下 DeepMind 研发的 AI 程序 AlphaFold2 在国际蛋白质结构预测竞赛上取得惊人的准确度,使得" AI 预测蛋白质结构"这一领域受到了空前的 ...
- 长沙4月21日开发者大会暨.NET社区成立大会活动纪实
活动总结 2019年4月21日是一个斜风细雨.微风和煦的美好日子,由长沙.NET技术社区.腾讯云云加社区.微软Azure云技术社区.中国.NET技术社区.长沙柳枝行动.长沙互联网活动基地(唐胡子俱乐部 ...
- How do I learn mathematics for machine learning?
https://www.quora.com/How-do-I-learn-mathematics-for-machine-learning How do I learn mathematics f ...
- [转]awsome c++
原文链接 Awesome C++ A curated list of awesome C++ (or C) frameworks, libraries, resources, and shiny th ...
- 斯坦福CS课程列表
http://exploredegrees.stanford.edu/coursedescriptions/cs/ CS 101. Introduction to Computing Principl ...
- Reading With Purpose: A grand experiment
Reading With Purpose: A grand experiment This is the preface to a set of notes I'm writing for a sem ...
- Awesome C/C++
Awesome C/C++ A curated list of awesome C/C++ frameworks, libraries, resources, and shiny things. In ...
- C/C++ 框架,类库,资源集合
很棒的 C/C++ 框架,类库,资源集合. Awesome C/C++ Standard Libraries Frameworks Artificial Intelligence Asynchrono ...
- awesome cpp
https://github.com/fffaraz/awesome-cpp Awesome C/C++ A curated list of awesome C/C++ frameworks, lib ...
随机推荐
- 康谋分享 | 自动驾驶联合仿真——功能模型接口FMI(终)
在之前的文章中,我们介绍了如何构建简单的车辆模型,并基于FMI2.0构建了其FMU,其最终结构为: 今天将会和大家分享如何在aiSim中,通过UDP和aiSim车辆动力学API(Vehicle Dyn ...
- SpringMVC的执行过程
环境准备 package org.example.springmvclearn; public record Greeting(long id, String content) { } package ...
- kettle介绍-Step之Write to log
Write to log写日志介绍 写日志步骤是将输入步骤的信息打印在日志窗口,供用户直接查看 Step name:步骤的名称,在单一转换中,名称必须唯一. Log level:设置日志的显示级别. ...
- [笔记]这些超级好用的html标签和css属性
1.sup.sub 上标.下标,直接看下面的例子吧 A<sub>2</sub> 4<sup>2</sup> 42 A2 2.伪类属性的love hate ...
- 【笔记】Python3|爬虫请求 CSRF-Token 时如何获取Token、Token过期、处理 CSRF-Token 需要注意的问题及示例
CSRF-Token 机制是 Web 应用程序中常用的安全机制,它可以防止跨站请求伪造攻击,但会给爬虫造成一定的困扰.本文将介绍在使用 Python3 爬虫时,处理 CSRF-Token 机制需要 ...
- 【SQL周周练】:利用行车轨迹分析犯罪分子作案地点
大家好,我是"蒋点数分",多年以来一直从事数据分析工作.从今天开始,与大家持续分享关于数据分析的学习内容. 本文是第 7 篇,也是[SQL 周周练]系列的第 6 篇.该系列是挑选或 ...
- yysxky
哎,还有三天目标分数50分pde能否及格,我其实是有一些信心的我觉得我可以前两天觉得教资pde傻逼班里的模拟教资给我搞得非常恶心当时再加上根本本学不会,我真的会要崩溃的 现在结束了面试感觉其实还好会有 ...
- Win32汇编学习笔记05
定位关键点3种方法: 过程函数 api 字符串 但是不确定用要哪一种方法,可以3种方法都用一下,因为在不同的程序,实用的方法是不一样的 窗口程序看控件信息 1.通过OD去看 还可以用 spy ++ 查 ...
- 代码随想录第二天|数组part02
开始时间10:30 209.长度最小的子数组 题目建议: 本题关键在于理解滑动窗口,这个滑动窗口看文字讲解 还挺难理解的,建议大家先看视频讲解. 拓展题目可以先不做. 题目链接:https://lee ...
- JXOI2021游记
JXOI2021游记 day0 虽然说退役的概率比较大,但是我不想.唉,这也不是说不想就可以避免的事情呐-- 总之我希望我稳一点就好-- day1 考场上 依照教练说的,先把三道题都看完再动笔. 看T ...