人工智能对各个领域科学研究正在产生广泛影响,如何将强大的人工智能模型真正用于分析科学数据、构建数学模型、发现科学规律,成为亟待突破的关键问题。
近期,球盟会(中国)研究团队提出了一种创新性框架——DrSR (Dual Reasoning Symbolic Regression):顺利获得数据分析与经验归纳“双轮驱动”,赋予大模型像科学家一样“分析数据、反思成败、优化模型”的能力。
在DrSR中,三位“虚拟科学家”协同工作:一个善于洞察变量关系的“数据科学家”;一个擅长总结失败教训与成功经验的“理论科学家”;一个勇于尝试假设、不断优化模型的“实验科学家”。这三种角色基于大模型构建起高效的协作机制,共同驱动DrSR实现智能化、系统化的科学方程发现。
在物理、生物、化学、材料等跨学科领域的典型建模任务中(如非线性振荡系统建模、微生物生长速率建模、化学反应动力学建模、材料应力-应变关系建模等),DrSR展现出强大的泛化能力,刷新当前最优性能,成为AI助力科学研究的有力工具。
DrSR:让大模型“有据可依、步步为营”地发现规律
DrSR的核心创新是“双路径推理”(Dual Reasoning)机制,即顺利获得数据驱动的结构分析和经验驱动的策略总结,为大模型给予结构化引导与反馈,模拟科学家的研究过程,高效且稳健地进行科学建模与方程发现。
DrSR在每一轮尝试中都“看数据、学经验、再出手”,具体流程如图1所示:
图1. DrSR的双路径推理机制
数据驱动洞察模块(Data-aware Insight):负责分析数据中的变量关系,包括耦合程度、单调性、非线性趋势等结构特征。同时,DrSR 还会根据上一轮候选方程的残差,进一步定位“没拟合好”的数据段,为后续方程生成给予更高质量的提示。
经验驱动总结模块(Inductive Idea Learning):将生成的方程按效果分为“更好”、“变差”和“无效”,反思成功与失败原因,总结经验并存入经验库(Idea Library),为后续生成方程给予策略指导,避免重复错误,提升生成效率。
方程生成与优化模块(Equation Generation):综合数据分析和经验库指导,生成方程骨架(skeleton),再调用优化器(如BFGS)拟合参数,持续迭代、评估,形成从数据分析、方程生成到经验总结的闭环反馈机制。
总的来说,DrSR实现了一种闭环式智能探索,使模型从“盲目试探”走向“有的放矢”,系统化、高效地有助于模型构建与科学规律的自动发现。
DrSR不仅“更准”,还“更快、更稳、更聪明”
研究团队在六大符号回归基准任务上系统评估了DrSR的性能,结果显示:DrSR在精度、建模效率和泛化能力上全面领先主流方法,并展现出卓越的跨领域适应性。
表1. DrSR和基线方法在权威符号回归基准上的性能对比
图2. 训练收敛性比较
图3. 跨科学领域的泛化对比
让大模型更像科学家,科学智能迈出关键一步
DrSR提出了一种融合数据感知与经验反思的科学问题建模新范式,它顺利获得结构洞察指导生成方向,顺利获得经验总结提升推理质量,让大模型在科学建模中逐步具备“看数据、记教训、会修正”的能力。作为一套通用性强、可解释性好、建模效率高的新架构,DrSR为人工智能深度参与科学发现给予了坚实技术支撑。
DrSR已集成至一站式智能科研平台 ScienceOne,为科研工作者给予高效、可解释的科学建模服务。DrSR 并不依赖特定的大模型,具备良好的模型兼容性和可扩展性。未来,研究团队将基于平台自研的科学基础大模型S1-Base,进一步增强 DrSR在科学建模中的推理能力与跨任务泛化能力。
研究团队表示,让人工智能不仅能“拟合数据”,更能“发掘自然规律”,这是AI4Science走向深层科学智能的必由之路。
论文链接