新闻

[Chem. Rev.,26,化学领域通用大模型]化学科学中的通用模型:大型语言模型及其扩展

新闻 2026-05-05 0 次浏览

字数 4138,阅读大约需 21 分钟

化学科学中的通用模型:大型语言模型及其扩展

个人简评

  1. 0. GPM本质上还是在学一个“好的”latent representation
  2. 1. 本文说的Bottom up和Top down的数据集构建方式很有总结性和启发性
  3. 2. GPM在数据提取和分析中已经展现出相当的潜力了,这来自于通用基座模型的能力的不断提高
  4. 3. GPM在Self-driving laborotary中也会扮演也扮演越来越重要的角色,这与自动驾驶等技术不断完善是一脉相承的
  5. 4. 对GPM的测评仍然处于代理层面,可合成性等核心指标仍然难以衡量,但这是最终的判据之一
  6. 5. 领域多模态的GPMs仍然有很大进步空间,这主要受限于(化学)领域的数据的数量和质量以及规范
  7. 6. 基于GPM的化学领域Agent仍然处于proof-of-concept阶段,稍显鸡肋,但是不妨碍发好文章?
  8. 7. GPM如何集成已有物理知识,空间知识和多尺度模拟仍然有待进一步探索

1. 一段话总结

该综述聚焦化学科学领域的通用模型(GPMs),重点阐述其核心构建原理(如自监督学习、多模态融合、参数高效调优等)、在化学研究全流程(知识收集、假设生成、实验规划与执行、数据分析、报告撰写)及加速应用(性质预测、分子/材料生成、逆合成、优化器)中的应用,同时探讨了教育、安全、伦理等关键影响因素,指出GPMs能应对化学数据多样性、小样本等独特挑战,但目前仍面临数据规模不足、评估体系不完善、安全风险等问题,未来需跨学科协作推动其稳健发展。


2. 思维导图


3. 详细总结

一、引言

  1. 1. 化学领域的独特挑战:化学数据具有多样性(时间、空间、表示维度)、小样本模糊性,且存在大量“隐含变量”(如未受控的实验条件)和“隐性知识”(如实验操作技巧),传统机器学习难以适配。
  2. 2. GPMs的核心定义:通过多模态(文本、图像、图表等)海量数据预训练,具备零/少样本泛化能力,可适配分类、回归、生成等多类下游任务,无需大量任务特定微调。
  3. 3. 综述目标:梳理GPMs的构建原理、化学领域应用、影响与挑战,为跨学科协作提供参考。

二、化学数据的形状与结构

维度
核心特点
关键案例/数据
数据形状
不可约复杂性:变量难以完全枚举;涌现复杂性:参数明确但相互作用呈混沌态
不可约复杂性(填充床反应器);涌现复杂性(Belousov-Zhabotinsky反应,5种反应类型对应10²²种可能解)
数据规模
长尾分布:少数大数据集贡献主要token,大量小数据集提供多样性
ChemPile中最大数据集是最小数据集的约300万倍,最大化学文本数据集约750亿token(远低于Llama 3的15万亿token)
数据集创建
自上而下(过滤海量数据);自下而上(针对性生成+数据增强)
自上而下(ChemPile过滤欧洲PMC数据);自下而上(SMILES多表示数据增强、规则/生成式合成数据)

三、GPMs的构建原理

  1. 1. 基础模型对比
    模型类别
    典型特征
    代表示例
    通用模型(GPMs)
    多模态预训练、跨任务泛化、零/少样本学习、自主智能体行为
    GPT-4、LLaMA、Gemini Diffusion、Mamba-based模型
    领域特定基础模型
    领域数据训练、窄任务SOTA、单模态为主
    AlphaFold、ESM、MACE-MP-0
    专用化学ML流水线
    规则+符号组件、手工设计描述符、迁移性差
    基于摩根指纹的QSPR模型、NMR位移GPR模型
  2. 2. 核心构建模块
  • • 表示方法:分子/材料的表示需平衡简洁性与表达力,常用SMILES(灵活但非唯一)、SELFIES(100%化学有效性)、图结构(显式原子-键连接)等;分词将输入拆分为模型可处理的单元,嵌入则将离散单元映射为连续向量以捕捉语义关联。
  • • 训练流程:预训练通过生成式(掩码建模、下一个token预测、去噪)或对比式(实例判别、聚类)自监督学习,掌握化学“语法”(如原子成键规则);微调通过少量任务数据优化参数,保留预训练知识;后监督适配通过强化学习对齐人类偏好或特定目标。
  • • 架构与优化:LSTM/Transformer适配序列数据,GNN适配图结构,Mamba兼顾长序列效率;优化策略包括MoE(稀疏激活专家网络)、8/4位量化(降低内存占用50%+)、LoRA(训练参数<0.1%)等。
  1. 3. 多模态融合:通过联合嵌入对齐(如文本-分子图)、输入级融合(如SMILES+图像补丁)、适配器集成(将分子信息投影到LLM空间),实现跨模态推理(如结合光谱、文本描述识别分子)。

四、模型适配与系统集成

  1. 1. 模型级适配:提示工程(零/少样本、CoT引导多步推理)无需改参数,适合快速验证;微调(全参数/部分参数)适配特定任务,数据需求低于预训练;RAG通过外部知识库补充实时/专业知识,减少幻觉。
  2. 2. 智能体系统:以LLM为认知核心,集成工具集(数据库查询、代码执行、实验设备控制)和记忆模块(RAG存储历史信息),通过ReAct循环(思考-行动-观察)或多智能体协作(分工、辩论),实现自主实验设计、数据解析等复杂任务(如ChemCrow自主合成DEET)。

五、评估方法

  1. 1. 评估设计关键要素:需保证结构有效性(测核心能力)、数据无偏差、评分机制合理(如多答案任务的部分计分)、结果可复现(记录模型版本、硬件等)。
  2. 2. 主要评估方法:传统基准测试(如ChemBench含2.7K化学MCQ)、竞赛挑战(如CASP)、红队测试(探测安全漏洞)、真实部署研究(实验室验证)、消融研究(隔离组件影响)。
  3. 3. 现有基准现状:多为实用型评估(如MCQ、任务完成度),部分支持多模态(MaCBench),但存在易过拟合、缺乏开放性任务评估等问题。

六、应用场景

  1. 1. 科学工作流自动化
    • • 知识收集:语义搜索、结构化数据提取(如从专利中提取反应数据,准确率>90%)、问答系统(如PaperQA)。
    • • 假设生成:基于文献和数据生成研究假设,但目前多为增量创新,缺乏范式突破。
    • • 实验规划:分解任务为步骤(如溶液鉴别实验设计)、剪枝无效路径(如排除低效合成路线)。
    • • 实验执行:编译自动化(预转换协议为硬件指令)、解释型自动化(实时决策)、混合模式(结合两者优势)。
    • • 数据分析:处理异质数据(光谱、图像),但存在代码语义错误、对空间推理不敏感等问题。
    • • 报告:生成自然语言解释、辅助论文撰写,但需解决归因模糊、偏见放大等问题。
  2. 2. 加速应用
    应用方向
    核心方法
    现状与限制
    性质预测
    提示工程、微调、智能体驱动
    部分任务(如聚合物粘附自由能预测)准确率达96%,但3D结构编码、动态知识集成不足
    分子/材料生成
    提示、微调、扩散模型、强化学习
    句法有效性达89%,但满足特定性质目标的准确率<20%,合成可行性验证为瓶颈
    逆合成
    微调LLM、集成专业工具
    可预测无机化合物合成性及前驱体,多步路线规划能力不足,数据存在专利偏见
    GPMs作为优化器
    替代模型、候选生成器、先验知识源
    命中目标性质分子比例超90%,但对提示敏感、易产生无效结构

七、影响与伦理

  1. 1. 教育:可提供个性化辅导、虚拟实验模拟,但存在幻觉误导、学生技能退化风险,缺乏化学专用评估工具。
  2. 2. 安全:风险包括有害合成知识扩散(如生成炸药、神经毒剂路线)、幻觉导致实验事故、自主实验室网络安全漏洞;需建立化学感知护栏、国际监管协调机制。
  3. 3. 伦理:环境影响(训练耗能高,Google 2021-2024碳排放增65%)、版权侵权(预训练数据含大量 copyrighted 文献)、偏见(延续医疗文献中的种族/性别偏见)、资源集中化(少数企业掌控前沿模型)。

八、展望与结论

  1. 1. 适用性边界:GPMs适配非结构化/低数据/动态场景,领域特定模型在数据清洁、归纳偏置明确时更高效。
  2. 2. 开放问题:化学预测的根本极限、GPMs是否真理解化学、数据驱动机制、技术普及速度等。
  3. 3. 未来方向:需化学、计算机科学、政策专家协作,完善数据生态(补充失败实验数据、隐性知识)、优化评估体系、强化安全治理,避免“科学单一化”。

4. 关键问题

问题1:GPMs相比传统机器学习方法,在应对化学领域独特挑战时的核心优势是什么?

答案:核心优势源于其多模态预训练特性和灵活适配能力:① 应对数据多样性:可处理文本、光谱、分子结构等多类型数据,无需为每种数据格式设计专用模型;② 适配小样本场景:通过零/少样本学习,利用预训练的化学知识,在少量任务数据下实现有效预测(如GPT-3微调后用少量数据匹配传统ML模型性能);③ 解决模糊性与隐含变量:通过自监督学习捕捉数据潜在分布,无需显式建模所有隐含变量;④ 跨任务迁移:同一模型可适配性质预测、分子生成、逆合成等多下游任务,避免重复开发专用流水线。

问题2:当前GPMs在化学领域落地应用面临的最关键技术瓶颈有哪些?

答案:① 数据瓶颈:高质量化学数据规模不足(最大开源化学语料仅750亿token,远低于Llama 3的15万亿token),且缺乏失败实验、隐性知识等关键数据;② 评估瓶颈:现有基准多侧重特定任务准确率,难以衡量开放问题解决、多步推理等核心能力,且存在数据泄露、评分机制不一致问题;③ 能力瓶颈:对3D结构、空间关系的建模能力薄弱,生成分子的合成可行性验证不足,多模态融合的稳健性有待提升;④ 安全瓶颈:易被滥用生成有害化合物合成路线,幻觉可能导致实验事故,缺乏成熟的风险防控机制。

问题3:为推动GPMs在化学领域的负责任且高效发展,需重点推进哪些工作?

答案:① 数据生态建设:通过跨机构协作构建大规模、高质量、多模态化学数据集(含失败实验、隐性知识),建立数据共享与版权保护平衡机制(如CAS Common Chemistry);② 评估体系完善:开发覆盖开放问题、多步推理、合成可行性的综合基准,标准化评估流程(记录模型版本、硬件、提示策略),引入人类专家参与评估;③ 安全与伦理治理:设计化学专用安全护栏(如实时 hazard 评估、受控物质数据库校验),建立国际协调的监管框架(如高风险GPMs预审批制度),优化模型训练以降低环境影响;④ 技术创新突破:改进3D结构编码方法,强化多模态融合稳健性,开发更高效的参数调优与知识蒸馏技术,推动跨学科协作(化学、计算机、政策、伦理)。

GPM模型总结

以下是从综述文献《General-Purpose Models for the Chemical Sciences: LLMs and Beyond》中完整提取的通用模型(GPMs) 的详细表格。表格涵盖了文中明确提及的各类GPM,包括其名称、架构、训练方式、应用领域、任务类型及文献来源。


通用模型(GPMs)详细列表

模型名称
类型 / 架构
参数规模
训练方式
应用领域
代表任务
参考文献
GPT-4
自回归 Transformer
未公开
大规模无监督预训练 + RLHF
通用科学
零样本/少样本推理、工具调用、代码生成
[34]
LLaMA 3
自回归 Transformer
70B
大规模预训练(15T tokens)
通用
语言建模、推理、代码
[40]
Galactica
自回归 Transformer
120M–120B
科学文献预训练
科学
分子生成、文献问答、属性预测
[41]
Gemini Diffusion
扩散模型 + Transformer
未公开
多模态预训练
通用
文本生成、图像理解
[42]
Inception Mercury
扩散语言模型
未公开
扩散 + 自回归
通用
快速语言生成
[43]
Mamba
状态空间模型
未公开
线性时间序列建模
通用 / 化学
分子属性预测、生成
[44, 167]
ChemLLM
Transformer (InternLM2)
7B
指令微调(SFT/DPO)
化学
多主题化学问答、分子生成
[132]
nach0
T5 (encoder-decoder)
250M / 780M
科学文献 + SMILES 预训练
化学
SMILES ↔ 文本、属性预测
[284]
DARWIN 1.5
LLaMA
7B
科学QA + 多任务微调
材料科学
材料属性预测
[283]
ChemDFM
LLaMA
13B
化学文献预训练(34B tokens)
化学
分子描述、反应预测
[286]
ether0
Mistral-Small
24B
SFT + RL(GRPO)
化学
分子编辑、逆合成、反应预测
[157]
LLaMat
LLaMA
7B
CIF 数据继续预训练
材料科学
CIF 生成、材料信息提取
[285]
MolT5
T5
未公开
科学文本 + SMILES 预训练
化学
文本↔SMILES 生成
[170]
MolXPT
Transformer
未公开
SMILES + 文本配对预训练
化学
零样本文本→分子生成
[171]
MoleculeSTM
双编码器(GNN + Transformer)
未公开
对比学习对齐文本与分子
化学
文本→分子检索
[169]
CLOOME
对比学习模型
未公开
对比学习(图像 + 化学结构)
化学 / 生物
生物图像与分子结构对齐
[172]
InstructMol
LLM + 适配器
未公开
分子描述对预训练 + 指令微调
化学
分子问答、反应推理
[175]
ChemVLM
多模态LLM
未公开
图像 + 文本 + 分子联合训练
化学
多模态化学理解
[176]
SciDFM
MoE-LLM
未公开
多领域专家混合
科学
学科知识区分与推理
[179]
MoMVMe
MoE + 多视图
未公开
多专家加权融合
化学
分子属性预测
[180]
LLM-Prop
T5 + 预测头
未公开
晶体描述微调
材料科学
材料属性预测
[411]
LLM4SD
多种LLM
未公开
领域知识提示工程
化学
属性预测(分类/回归)
[412]
MolecularGPT
多种LLM
未公开
微调 + 提示
化学
多任务属性预测
[417]
GPT-MolBERTa
RoBERTa + 对比学习
未公开
分子+文本联合训练
化学
属性预测、毒性分类
[422]
GPT-Chem
GPT-3
175B
LIFT 微调
化学
小样本属性预测
[115]
LLAMP
ReAct 多智能体
未公开
工具调用 + 分层智能体
材料科学
材料属性查询、任务分解
[426]

说明:

  • • GPMs 的定义强调模型在多模态、多任务、少样本/零样本下的泛化能力。

参考文献

1 Alampara, N. et al. General-Purpose Models for the Chemical Sciences: LLMs and Beyond. Chemical Reviews (2026). https://doi.org:10.1021/acs.chemrev.5c00583

点击查看文章原文
上一篇
大模型应用开发系列教程: 第五章 从 Prompt 到 Prompt 模板与工程治理
下一篇
精彩回顾 | ChatGPT等大语言模型如何应用到外语教学和研究中?【文末有免费试听课】
返回列表