MOOSE-Chem3重塑科研范式：AI「动态引导」实验，实现科学发现的飞跃

编辑 | ScienceAI

在化学、材料等前沿领域，每一次突破都离不开大量的实验验证，而实验往往代价高昂、周期漫长。传统 AI 模型虽然能 "纸上谈兵" 生成大量假设，但多停留在 "实验前假设排名" 阶段。即，AI 通过大模型（LLMs）的内部推理，预先筛选出一批假设。但这终究是 "纸上谈兵"，一旦进入真实实验，缺乏对经验反馈的利用，AI 就成了旁观者，无法根据实验结果动态调整。

为了打破这个瓶颈，来自中国科学技术大学、上海人工智能实验室、南洋理工大学等机构的研究团队发表了一项突破性研究成果——MOOSE-Chem3，让 AI 能在实验反馈中"学习"，实时引导科学发现。

论文链接：https://www.arxiv.org/pdf/2505.17873

项目链接：https://github.com/wanhaoliu/MOOSE-Chem3.git

该工作开创性地提出了 "实验引导的假设排名"（Experiment-Guided Hypothesis Ranking）这一全新范式：让 AI 不再仅仅是假设的 "生成器"，而是深入到实验环节，让 AI 在每一次实验后做到：

实时优化：根据实验结果，动态调整所有假设的优先级
高效决策：帮助科学家选出下一个最具潜力的实验方向
减少试错：最大限度节省实验次数与资源投入

核心引擎：MOOSE-Chem3 如何实现 "智能实验引导"

要让 AI 能够 "边做边学"，首先需要一个能模拟真实实验结果的强大工具。然而，真实实验成本极高，无法大规模用于 AI 训练，研究团队为此构建了：独创的 "领域专家知识模拟器 CSX-smi"。

CSX-smi 并非凭空捏造，它基于研究人员与领域专家深度交流后确定的三个核心假设，旨在精确模拟化学实验的 "真实" 反馈过程。

AI 在模拟器中 "沙盘推演"：四步迭代策略

MOOSE-Chem3 并非简单地 "测试" 假设，而是采用一套结构化、迭代式的策略。深入分析发现，有效的假设通常包含足够数量的关键化学组分，它们共同发挥互补的机制作用，并与研究问题 q 紧密相关。基于这一洞察，MOOSE-Chem3 设计了以下四个核心步骤：

1. 第一步：功能组分提取、分类与聚类。AI 首先将每个候选假设 h 分解为不同的功能化学组分（即可能对目标反应机制有贡献的独特子结构或基序）。随后，这些组分会被分类为：有效、不确定和无效。无效组分将被直接排除，以减少计算开销。剩余的组分则根据其功能相似性进行聚类，每个聚类代表对解决问题 q 的一种独特的机制贡献。

2. 第二步：智能聚类与假设选择。在大语言模型（LLM）预训练的化学知识引导下，框架会识别出最有可能包含与研究问题 q 高度相关组分的聚类。在此基础上，LLM 智能体将根据组分相关性和先验知识，在该聚类中选择一个最有前景的假设 h。

3. 第三步：模拟实验执行与结果分析。被选定的假设 h 将被输入到实验执行器（即 CSX-smi 模拟器）中进行评估。模拟器会返回一个标准化性能得分 s。随后，AI 对这个模拟实验结果进行深入分析，以评估所选聚类的有效性，并验证或更新已有的机制假设。

4. 第四步：迭代总结与持续优化。在每次模拟实验评估之后，系统都会进行详细分析，并将获得的分析整合到一个持续更新的累计总结中。这份总结综合了之前所有分析的见解，突出显示有效的聚类，并为未来的假设和聚类选择提供具体指导。

通过迭代地利用先验化学知识和来自模拟实验的经验反馈，MOOSE-Chem3 框架能够系统性地优化假设的优先级。其总体目标是：高效识别最优假设，同时最大程度地减少所需的实验次数。

CSX-smi：模拟真实，验证智能

这样的模拟是否有效？研究团队进行了严谨的验证。

测试数据集：研究团队收集了 124 个真实的化学实验假设，针对 30 个不同的化学科学问题进行测试。

评估指标：

趋势一致性 (Trend Alignment)：使用 Spearman 相关系数（Perfect Consistency Indicator, PCI）衡量，看模拟结果的趋势是否与真实实验结果高度一致。
预测准确性 (Predictive Accuracy)：使用均方根误差 (Root Mean Square Error, RMSE) 衡量，评估模拟器预测数值的准确性。

惊人结果：CSX-smi 与真实实验高度匹配

趋势预测：在 30 组实验中，CSX-smi 的预测 Spearman 相关系数高达 0.96！其中 26 组实验的预测趋势与真实结果完全一致！这表明，CSX-smi 能精准捕捉到化学实验的关键趋势。
数值准确性：均方根误差仅为 0.213，显示了极高的预测准确性。

基于 CSX-smi 的智能排序方法：CSX-Rank

有了高保真模拟器，研究团队进一步开发了 CSX-Rank—— 一种聚类驱动的实验引导假设排名方法。

CSX-Rank 通过实时分析模拟（实验过）的假设反馈，对物质的机理进行聚类分析和思考总结，结合模型知识和实验反馈，推荐新的科学假设。

在 TOMATO-chem dataset（包含 1 个 "最优假设" 和 63 个负样本，共 64 个假设）上的测试发现，由于化学知识的多样性和复杂性，对关键概念理解的微小偏差可能导致结果的严重偏离。CSX-Rank 将识别最优假设的平均实验次数（Ntrials）从基线的 32 次降至 15 次。通过消融实验，发现聚类方法能有效降低这种偏差带来的影响。