AIGC热点大赛# 由 Hugging Face × OpenMMLab × ModelScope × 知乎 × 机智流等 联合发起的【AI Insight Talk】系列直播活动第三场即将开始!

AI 科学家时代正加速到来,但科研智能体真的做好准备了吗?真实科研场景中,多模态智能体能否在推理、规划与执行等关键能力上达到人类科研人员的水平?我们又该如何准确评估它们的科学认知能力和数据分析表现?

本期我们将聚焦 AI for Science,邀请多位在 Hugging Face Daily Papers 中热门论文的作者,共同探讨 AI for Science 能力的真实象限。

直播时间:2025 年 7 月 17 日( 周四 )19:30 - 21:30(北京时间)

直播预约地址:https://hf.link/pzahk

嘉宾阵容 & 分享议题

孙秋实

香港大学博士生,硕士毕业于新加坡国立大学数据科学系。研究方向涵盖 Computer-using Agents 与Code Intelligence,在 ACL、EMNLP、ICLR、COLM 等自然语言处理与机器学习顶级会议发表多篇论文,谷歌学术引用超过 1000 次,担任多个国际会议与期刊的审稿人及程序委员会委员。其关于计算机智能体的系列研究成果被广泛应用于学术研究与工业界实践中。个人主页:https://qiushisun.github.io/

简要概述

ScienceBoard 是一个用于评估多模态智能体在科学探索任务表现的框架,包含两个核心贡献:真实的可交互环境以及在此基础上构建的评测基准。该环境基于虚拟机,集成了多领域的专业科学软件,支持通过 GUI 和 CLI 进行复杂科研流程的自动化操作。评测基准在此环境中设计了 169 个覆盖生物化学、代数、天文学等六大领域的高质量任务,系统性地测试了智能体在真实科研场景下的推理、规划和执行能力。实验结果表明,即使是最先进模型驱动的智能体,其平均成功率依然远低于人类水平,进一步揭示了当前智能体在科学自动化中的局限,并为未来的科学智能体设计提供了关键启示。

论文地址:https://huggingface.co/papers/2505.19897

周宇浩

现为四川大学三年级博士生,本科毕业于四川大学计算科学专业,同时在上海人工智能实验室 AI4S 部门进行学术研究,目前主要研究方向为多模态大语言模型的训练和评测。

简要概述

Scientists’ First Exam(SFE)旨在系统评估多模态大模型(MLLMs)在多学科科学领域的能力。SFE 创新性地以“信号感知-属性理解-对比推理”三级体系,涵盖五大领域、66 项任务,采用原始科学数据与中英双语问答。测试发现,主流模型在 SFE 高阶科学任务中表现有限(SOTA 得分仅约 30),凸显了其在科学认知和多模态数据分析方面的不足,为科学 AI 发展指明了突破方向。

论文地址:https://huggingface.co/papers/2506.10521

欧翌昕

浙江大学知识引擎实验室三年级硕士生,由陈华钧教授和张宁豫教授指导,此前在浙江大学计算机科学与技术学院获得学士学位。当前研究方向涵盖大模型智能体、大模型可解释性等,在 ACL、NAACL、TASLP 等国际顶级会议和期刊上发表多篇相关研究成果,谷歌学术引用超过 800 次,担任多个国际会议的审稿人。个人主页:https://oe-heart.github.io/

简要概述

大模型驱动的数据科学智能体有望自动化整个机器学习流程,但其在实际应用中的效果仍然有限。现有的框架依赖于僵化的预定义工作流和不灵活的编码策略,因此仅在相对简单的经典问题上表现出色,未能充分捕捉人类专家在复杂创新任务中的经验。本研究提出了 AutoMind,一个自适应、知识丰富的大模型智能体框架,通过三项关键创新克服了这些不足:(1)一个精心策划的专家知识库,将智能体与领域专家的知识相结合;(2)一种智能体知识树搜索算法,策略性地探索可能的解决方案;(3)一种自适应编码策略,动态调整代码生成策略以适应不同任务的复杂性。评估结果表明,AutoMind 在性能上超越了先前 SOTA,更细致的分析确认了其在质量和效率方面的优势,突显了 AutoMind 在迈向完全自动化数据科学中的高效性和稳健性。

论文地址:https://huggingface.co/papers/2506.10974

参与讨论

为了方便大家交流沟通,我们建立了相关的交流群,本期分享的作者们也在群里,欢迎大家入群交流。

7 月 17 日下午 7:30,AI Insight Talk 不见不散!

HF Papers 直播| AI for Science 专场的更多相关文章

  1. AI中台——智能聊天机器人平台的架构与应用(分享实录)

    内容来源:宜信技术学院第3期技术沙龙-线上直播|AI中台——智能聊天机器人平台 主讲人:宜信科技中心AI中台团队负责人王东 导读:随着“中台”战略的提出,目前宜信中台建设在思想理念及架构设计上都已经取 ...

  2. AI 企业多云存储架构实践 | 深势科技分享

    2020 年末,谷歌旗下 DeepMind 研发的 AI 程序 AlphaFold2 在国际蛋白质结构预测竞赛上取得惊人的准确度,使得" AI 预测蛋白质结构"这一领域受到了空前的 ...

  3. 长沙4月21日开发者大会暨.NET社区成立大会活动纪实

    活动总结 2019年4月21日是一个斜风细雨.微风和煦的美好日子,由长沙.NET技术社区.腾讯云云加社区.微软Azure云技术社区.中国.NET技术社区.长沙柳枝行动.长沙互联网活动基地(唐胡子俱乐部 ...

  4. How do I learn mathematics for machine learning?

    https://www.quora.com/How-do-I-learn-mathematics-for-machine-learning   How do I learn mathematics f ...

  5. [转]awsome c++

    原文链接 Awesome C++ A curated list of awesome C++ (or C) frameworks, libraries, resources, and shiny th ...

  6. 斯坦福CS课程列表

    http://exploredegrees.stanford.edu/coursedescriptions/cs/ CS 101. Introduction to Computing Principl ...

  7. Reading With Purpose: A grand experiment

    Reading With Purpose: A grand experiment This is the preface to a set of notes I'm writing for a sem ...

  8. Awesome C/C++

    Awesome C/C++ A curated list of awesome C/C++ frameworks, libraries, resources, and shiny things. In ...

  9. C/C++ 框架,类库,资源集合

    很棒的 C/C++ 框架,类库,资源集合. Awesome C/C++ Standard Libraries Frameworks Artificial Intelligence Asynchrono ...

  10. awesome cpp

    https://github.com/fffaraz/awesome-cpp Awesome C/C++ A curated list of awesome C/C++ frameworks, lib ...

随机推荐

  1. journalctl -u docker 查看日志

    转载注明出处: 1. 查看 Docker 服务的最新日志(实时滚动) sudo journalctl -u docker -f -f 参数表示 跟随(follow),会持续输出最新日志(类似 tail ...

  2. ESP-IDF教程2 GPIO - 输入、输出和中断

    1.前提 1.1.基础知识 1.1.1.GPIO 分类 ESP32 系列芯片按照 GPIO 特殊的使用限制分类,可以将其分为如下几类: GPIO PIN GPI PIN Strapping PIN S ...

  3. vue报错:Property or method "xxx" is not defined on the instance but referenced during render.

    vue报错:Property or method "attendanceDetaill" is not defined on the instance but referenced ...

  4. 题解:UVA12517 Digit Sum

    数位 dp 模板题-- 题目大意 给你两个数 l,rl,rl,r,求出 l,rl,rl,r 之间所有数的数位和. 什么是数位和? 举个栗子,有一个数 123123123,那么他的数位和,即各个数位的和 ...

  5. ESP32C3语音AI对话代码分析

    ESP32C3语音AI对话代码分析 代码:基于立创实战派C3例程删改(LCD屏幕显示,触摸和LVGL)和分析 硬件:立创实战派C3 立创官方例程教程链接:第16章 桌面天气助手 | 立创开发板技术文档 ...

  6. 异步IO与Tortoise-ORM的数据库

    title: 异步IO与Tortoise-ORM的数据库 date: 2025/04/29 13:21:47 updated: 2025/04/29 13:21:47 author: cmdragon ...

  7. 记录一次SpringBoot + Vue前后分离项目的部署流程

    前言 本教程使用黑马 SpringBoot3+Vue3全套视频教程 大事件项目作为前后端代码. 前置需要: mysql jdk redis nginx linux环境 打包 前端 构建项目命令 npm ...

  8. Python 的 type 及常用魔法方法(上)

    魔法方法是 Python 内置方法, 不需要我们手动调用, 它存在的目的是给 解释器 调用的. 比如我们在写 "1 + 1 " 的时候, 这个 "+ " 就会自 ...

  9. js操作session

    // 保存数据到sessionStorage sessionStorage.setItem('key', 'value'); // 从sessionStorage获取数据 sessionStorage ...

  10. 使用 C++ 20 协程降低异步网络编程复杂度

    传统异步回调 vs C++20协程 协程是一种函数对象,可以设置锚点做暂停,然后再该锚点恢复继续运行.它是如何应用在网络异步编程方面的,请对比下面的两种代码风格: 基于回调的异步网络编程 先来看一个异 ...