ACL 2026｜NOSE提出三模态嗅觉表征框架，让AI同时理解分子、受体与气味语义

DatapiTHU · 2026 年5 月 9 日 15:57

NOSE把分子、受体和气味语义统一进一个表征空间，提升了嗅觉建模和零样本泛化能力。

原文标题：ACL 2026 | NOSE：让AI学会「闻」，首个统一分子-受体-语义的三模态嗅觉表征框架

原文作者：数据派THU

原文链接： http://mp.weixin.qq.com/s?__biz=MzI1MjQ2OTQ3Ng==&mid=2247666109&idx=2&sn=95ac94e6d26fc77a11535208dd49dffd&

冷月清谈：

NOSE（Neural Olfactory-Semantic Embedding）由厦门大学程俊教授团队与深势科技合作提出，尝试把分子结构、嗅觉受体序列和自然语言气味描述统一到同一连续表征空间中。与以往只做“分子-气味”或“分子-受体”局部建模不同，NOSE把分子作为桥梁，用正交注入机制将受体信息和语义信息分别写入分子表示，尽量减少互相干扰，同时保留结构先验。语义侧还利用大模型挖掘气味词之间的近邻关系，把相近描述当作弱正样本，缓解对比学习中的假阴性问题。文章提到，该框架在覆盖基础感知、语义描述和混合物感知的11个下游任务上取得SOTA，并在严格零样本检索中表现出较强泛化能力。整体来看，这项工作为“让AI学会闻”提供了一种更统一的分子表征思路，也可能迁移到电化学等其他分子设计场景。

怜星夜思：

1、这种把分子结构、受体序列和文本描述统一建模的方法，真的能让AI更接近“理解气味”吗？
2、文中提到的“正交注入”思路，放到别的多模态任务里会不会也很好用？
3、如果气味预测不再只做分类，而是构建连续的语义流形，这会改变哪些下游应用？
4、这类工作虽然是嗅觉研究，但文章最后提到还能迁移到电解液、电镀添加剂等领域，靠谱吗？

原文内容

来源：ScienceAI

        本文约2200字，建议阅读5分钟

        为AI驱动的分子设计提供新的表征范式。

视觉有像素，听觉有频谱，这些物理量与感知之间存在稳定的映射。但嗅觉截然不同，同一个分子可能激活不同的受体组合，同一种气味在不同人的嘴里可以是「花香」也可以是「肥皂味」。如何让 AI 理解「分子闻起来是什么味道」，一直是 AI for Science 领域一个独特而前沿的挑战。

近日，厦门大学程俊教授团队与深势科技合作，提出了 NOSE（Neural Olfactory-Semantic Embedding）框架。该工作首次将分子结构、嗅觉受体序列和自然语言描述三种模态统一到一个连续的表征空间中，在覆盖三个感知层次的 11 个下游任务上达到 SOTA，并展现出优异的零样本泛化能力。研究成果已被自然语言处理顶级会议 ACL 2026 主会录用。

论文链接：https://arxiv.org/abs/2604.10452v1

代码链接：https://github.com/Xianyusyy/NOSE

为什么嗅觉数字化这么难？

嗅觉感知始于气味分子的挥发扩散，与鼻腔中嗅觉受体的结合，经过神经信号传导，最终在大脑中形成主观知觉。这条通路天然涉及三种截然不同的信息，包括分子的三维化学结构、嗅觉受体蛋白的序列特征，以及人类用自然语言给出的感知描述（如「花香」「薄荷味」「奶油感」）。

然而，现有方法从未在统一框架中建模这条完整通路。它们要么仅从分子结构出发预测气味，要么只学习「分子 - 描述」或「分子 - 受体」的局部对应关系。更根本的问题在于，主流方法将气味预测视为分类问题，即预测分子属于「花香」还是「果香」。这种离散化处理不仅破坏了气味空间的连续性（「薄荷」和「清凉」本应相邻，分类框架下却是两个独立标签），还迫使模型丢弃那些对分类「无用」但对分子表征至关重要的结构信息，导致泛化能力受限。

正交注入与连续语义流形

NOSE 的关键洞察在于，虽然「分子 - 受体 - 描述」三元组数据几乎不存在，但「分子 - 受体」和「分子 - 描述」双模态数据可以分别获取。分子是两类数据的唯一交集，因此可以作为中枢，将受体信息和语义信息桥接到统一的表征空间。

但如果将受体特征和语义特征同时注入分子表征，三种模态会不会相互干扰、彼此覆盖？NOSE 给出的解法是正交注入机制。框架采用「硬正交 + 软正交」双重策略，利用 Gram-Schmidt 正交化，将受体和描述的适配器输出投影到分子表征的正交补空间，在几何层面保证注入的信息与分子结构线性无关；同时引入软正交损失，在梯度层面驱动受体分支和描述分支的特征子空间保持互不相关。这样，受体信息和语义信息以相互独立的增量叠加在分子表征之上，既不丢失分子结构先验，又实现了隐式的三模态对齐。

在编码器选择上，NOSE 采用 Uni-Mol 捕捉分子三维构象、ESM-2 提取受体序列特征、LoRA 微调的 Qwen3 Embedding 处理气味描述文本，三大预训练模型各司其职。

在语义端，NOSE 利用大语言模型 DeepSeek 挖掘 1,086 个气味描述词之间的语义近邻关系（如「柠檬」与「柑橘」、「甜」与「蜂蜜」），将这些语义近邻标记为「弱正样本」并赋予中间权重。这一策略将离散的标签空间转化为连续的语义流形，有效缓解了对比学习中将语义相近的描述错误推远的「假阴性」问题。经过训练后，原本在通用文本模型中高度重叠的气味词在 PCA 可视化中形成了边界清晰的语义簇，证明模型成功构建了结构化的气味语义空间。

全面 SOTA 与零样本泛化

研究团队整合了 6 个公开数据集，构建了覆盖三个认知层次的评估基准，涵盖基础感知（检测阈值、强度、愉悦度）、语义描述（138 类多标签分类和多维度回归）、以及混合物感知（二元混合物的强度与愉悦度预测）。在全部 11 个任务的关键指标上，NOSE 均取得最优表现。

零样本检索

为验证泛化能力，研究团队从 PubChem 构建了专用测试集。与标准零样本设置（分子存在于数据集中但分子 - 描述词配对未见过）不同，严格零样本要求分子完全不存在于训练集中。团队使用分子检索气味描述词，采用百分位排名进行评估（数值越低表示精度越高）。除 PubChem 描述词外，同义术语的排名也被纳入评估。例如对于无味分子，模型将「odorless」排在 Top 1（0.092%），并优先排列 slight、weak、neutral 等术语，表明模型真正理解了分子的感知属性，而非简单地与高频词对齐。

在受体检索方面，团队从文献中选取具有明确「激活」或「非激活」关系报告的分子 - 受体配对作为测试集。模型在已报道的「激活」配对上表现优异，绝大多数排名位于前 2% 以内，涵盖大环麝香（MCM）及其他化学家族，显示出良好的跨家族泛化能力。同时，所有「非激活」样本的排名显著靠后，主要分布在 30% 至 80% 区间。这种激活与非激活样本间的排名分离表明，模型构建的潜在空间有效区分了正负样本对，具备可靠的生物筛选价值。

意义与展望

NOSE 首次为嗅觉通路上的三种模态搭建了统一的表征空间，使分子结构、受体蛋白和人类感知之间的关联能够在一个连续、可检索、可运算的特征流形中被建模。其核心思想，即通过对比学习统一多模态信息以构建连续且结构化的领域分子表征，不局限于气味分子场景，同样有望推广至电解液溶剂、电镀添加剂等电化学领域，为 AI 驱动的分子设计提供新的表征范式。

编辑：文婧

关于我们

数据派THU作为数据科学类公众号，背靠清华大学大数据研究中心，分享前沿数据科学与大数据技术创新研究动态、持续传播数据科学知识，努力建设数据人才聚集平台、打造中国大数据最强集团军。

新浪微博：@数据派THU

微信视频号：数据派THU

今日头条：数据派THU

DancingFrog182 · 2026 年5 月 11 日 08:33

科研里这种话一般都得打个折看：先别急着说能颠覆电池行业，先看能不能在几个基准任务里稳稳跑通。不过从建模哲学上说，统一多模态表示确实很像通用工具箱。

GlowingStarfish420 · 2026 年5 月 11 日 11:06

我觉得至少方向是对的。嗅觉本来就不是单一输入能解释的系统，分子、受体、感知描述缺一块都不完整。把三种模态放到同一个空间里，确实比只做分类更像是在还原真实机制。

Radiant43s · 2026 年5 月 11 日 21:52

理论上是有泛化潜力的。只要多个模态都要注入到一个主干表示里，怎么避免信息互相覆盖就是核心问题。正交约束本质上是在控制表示空间的解耦，这个思路在医学、材料、分子设计里都挺有价值。

EmeraldDog210 · 2026 年5 月 12 日 02:14

这事有点像以前大家只会说‘这东西像不像猫’，后来开始学‘猫耳朵、胡须、尾巴’这些更细的特征。NOSE像是在给气味补上“分子版五官”，AI离闻懂可能还差一步，但至少不是瞎猜了。

FrostyPenguin271 · 2026 年5 月 12 日 11:12

我更关注它对配方设计的影响。比如香精、日化、食品风味这类行业，很多需求不是“像不像”，而是“更像花香一点、少一点肥皂感、清凉感保留”。连续空间更适合做这种细粒度调参。

SapphireCat928 · 2026 年5 月 12 日 23:11

我觉得“可迁移”不等于“直接能用”。嗅觉里有受体和语言描述，电化学里可能换成溶剂化、界面反应、性能指标，模态不一样，但方法论可以借鉴，不能简单照搬。

SapphireCat928 · 2026 年5 月 16 日 23:51

我觉得它像一种“分开说话”的机制：别几个分支抢着往同一个特征里塞东西，不然最后模型记成一锅粥。这个办法不一定万能，但很适合那种模态之间既有关联又不能混成一团的场景。