AV-NAS:首个音视频哈希搜索架构,Mamba与Transformer自动“组队”实现高效视频检索

AV-NAS:多模态视频哈希新范式,神经架构搜索驱动,音视频联合,Mamba与Transformer自动组队,提升检索效率。

原文标题:SIGIR 2025 | 视频检索新范式!北邮、北大等联合提出AV-NAS:首个音视频哈希搜索架构,让Mamba与Transformer自动“组队”

原文作者:AI前线

冷月清谈:

本文介绍了北邮和北大联合提出的AV-NAS,这是一种基于神经架构搜索(NAS)的多模态视频哈希框架。该框架旨在解决现有视频检索方法中忽略听觉信息以及架构设计依赖人工经验的问题。AV-NAS的核心在于构建一个统一的搜索空间,该空间同时包含Transformer和Mamba等多种模型结构,并能自动搜索出最优的跨模态融合机制。研究结果表明,在音频时序建模任务中,简单的“CNN + FFN”结构可能优于复杂的Transformer方案,这一发现颠覆了传统认知。AV-NAS采用三阶段搜索策略,包括粗搜索、剪枝和微调,以在效率和效果之间取得平衡。实验结果表明,AV-NAS在mAP指标上优于其他方法,并在大规模视频检索场景中表现出有效性。该研究为多模态视频检索领域提供了一种兼顾存储和检索效率的新路径,并已在SIGIR 2025上发表。

怜星夜思:

1、在视频检索中,音频信息真的被忽视了吗?除了背景音乐和语音对白,音频还能提供哪些有用的信息,帮助我们更准确地检索视频?
2、AV-NAS 强调了“数据驱动”的重要性,那么在实际应用中,如何避免 NAS 搜索到的结构过度拟合训练数据,从而导致泛化能力下降?
3、AV-NAS 揭示了音频时序建模中“CNN + FFN”优于 Transformer 的结论,这是否意味着在所有音视频任务中,CNN 都比 Transformer 更适合处理音频?这个结论对其他多模态任务有何启示?

原文内容

作者 | 陈勇

在海量视频检索场景中,传统方法往往“重视觉、轻听觉”,且网络结构设计更多依赖经验与人工尝试,难以同时兼顾高效存储与快速检索。那么,是否存在一种能够自动找到最优结构、并充分发挥多模态价值的方案?

近日,来自北邮与北大的研究团队提出 AV-NAS,在多模态视频哈希领域首次引入神经架构搜索(NAS),构建了一个同时覆盖 Transformer 与 Mamba 的统一搜索空间。该方法不仅使模型能够自动发现最优的跨模态融合机制(Cross-Mamba),还揭示了一个颇具启发性的结论——在音频时序建模任务中,看似简单的 “CNN + FFN” 结构竟然优于复杂的 Transformer 方案。

目前,AV-NAS 已被 SIGIR 2025 录用,相关代码已正式开源,为多模态视频检索领域提供了一条兼顾“存得下、搜得快”的全新路径。

论文题目:AV-NAS: Audio-Visual Multi-Level Semantic Neural Architecture Search for Video Hashing

论文链接: https://dl.acm.org/doi/10.1145/3726302.3729899

代码链接: https://github.com/iFamilyi/AV-NAS

从“人工设计”到

“数据驱动”的突围

在短视频与流媒体爆炸的时代,假设面对 10 亿条视频,如果用常规的 1000 维浮点向量表示,存储量将高达 8TB;而如果将其压缩为 64 位二进制哈希码,存储仅需 8GB,且通过 XOR 位运算即可实现近似 $O(1)$ 的高速检索。

然而,现有的视频哈希方法面临两个痛点:

  • 听觉模态的缺位。大部分方法(如 DSVH、MCMSH、AVH 和 ConMH 等)主要依赖关键帧的视觉信息学习哈希表示,往往忽略背景音乐、语音对白等音频线索;即便有少量工作尝试引入音频,整体仍未充分挖掘声画语义的互补性。

  • 架构设计的瓶颈。当前深度哈希函数通常由专家选定固定结构(如 MLP、CNN、LSTM 或 Transformer)进行训练,但手工设计的架构未必是多模态视频语义建模的最佳形态。相比之下,数据驱动的神经架构搜索(NAS)在图像等任务(如 AutoFormer、DARTS 和 GLiT 等)中已证明能发现比手工设计更优的结构,但这一思路在视频哈希场景仍缺乏系统探索。

为此,来自北京邮电大学、北京大学、北京航空航天大学及中国电信人工智能研究院的研究团队联合提出了 AV-NAS。这篇被 CCF-A 类会议 SIGIR 2025 录用的论文,核心立场非常明确:不再依赖经验“拍板”,而是构建一个面向音视频的专用搜索空间,让模型在 NAS 的驱动下自动搜索出最适合视频哈希任务的网络结构 。

统一 Mamba 与 

Transformer 的搜索空间

整体架构

AV-NAS(Audio-Visual Neural Architecture Search)提出了一种多层语义音视频哈希架构搜索框架,能够在统一的搜索空间内自动寻找最优的多模态哈希网络结构。其整体模型如图 1 所示,网络结构包括输入特征提取、Encoder 编码模块、Fusion 融合模块、Transformation 语义变换模块和 Hash Layer 哈希模块等。AV-NAS 设计了一个高效的三阶段架构搜索策略,训练过程中采用对比学习中常用的 InfoNCE 损失作为优化目标。

图 1:AV-NAS 整体架构

搜索空间

搜索空间由双路 Encoder 、Fusion 和 Transformation 组成。论文中,作者将可选算子按功能分成 6 类,如图 2 所示。其中既包含 Transformer 组件(SelfAttention / CrossAttention / FFN / LN / Skip),也包含 Mamba/SSM 组件(SelfSSM / CrossSSM 与 Up-Down 变换),并引入 CNN、MLP、GatedAttention、Add、Hadamard 等操作。

图 2:AV-NAS 的搜索空间包含 6 类操作类型:M 用于序列建模,I 用于跨模态交互,F 用于融合,T 用于变换,U 用于一元操作,D 用于二元操作。

编码模块

AV-NAS 为视觉信号与音频信号设计了双路 Encoder,分别用于提取各自模态的深层时序语义表示。其关键在于:Encoder 不是固定架构,而是在 NAS 搜索空间中为每个“cell”自动选择最合适的算子组合。论文中把单模态输入记为 X∈ℝm×d,Encoder 的骨架由两段式结构组成,其前向形式为:

图片

其中 Up-Down 维度变换定义为(用于兼容“先扩维再降维”的结构):

图片

e 为扩维系数(论文中默认 e=2)。在该骨架上,M,U,D 分别对应不同类型的 cell(序列建模 / 一元变换 / 二元变换),其内部算子可从 SelfAttention,SelfSSM,Convk,MLP,FFN,LN,Skip,…中搜索选择,从而把 Transformer、Mamba、CNN、MLP 等主流范式统一到同一空间中。

论文还展示了该空间对经典结构的“可表示性”。例如,选择特定算子后可复现 Transformer encoder:

图片

同样,通过 Up-Down 与 SSM(即 SelfSSM)等算子组合,也能兼容 Mamba 的核心形式:

图片

总结来说,AV-NAS 的 双路 Encoder 通过“统一骨架 + 可搜索算子”的模块化设计,可以在数据驱动下针对视觉与音频信息自动挑选最合适的序列建模单元与变换方式,学习更有效的时序语义表征,为后续 Fusion 与哈希编码提供高质量输入。

融合模块

在视觉与音频分别经过各自的 Encoder 编码后,AV-NAS 得到两路时序特征表示 Ei 与 Ea。融合模块的目标是显式建模声画之间的交互关系,并输出统一的多模态表征。具体来说,先进行双向跨模态交互,再做融合汇聚。在论文中其表示为:

图片

其中,I 表示跨模态信息交换算子,F 表示融合算子。

AV-NAS 从 Transformer 中的 CrossAttention 机制汲取灵感,提出了一种基于 Mamba 的新型跨模态融合机制,称为 CrossSSM:它借鉴 Cross-Attention 的“用另一模态来调制当前模态”的思想,但将注意力机制替换为基于 SSM 的选择性扫描,从而以更高效的序列建模方式实现跨模态对齐与信息注入,如图 3 和 4。与此同时,搜索空间也保留了更轻量的融合策略,例如 Add、Hadamard 以及门控式融合,使模型能够在“复杂交互”与“高效融合”之间自动权衡,选择最适合数据的融合路径。

图 3:The CrossMamba Block

图 4:The CrossSSM Module in CrossMamba(图 3)

语义变换模块

融合后的多模态特征仍包含较多冗余信息与复杂时序依赖,因此 AV-NAS 在 Fusion 之后引入 Transformation 模块,用于进一步提炼全局语义表征并生成更“检索友好”的表示。论文将该过程表示为:

h=T(Fo),

其中 Fo 为融合输出,h 为最终序列表示,T 是可搜索的变换算子。搜索空间中为 T 提供两种选择:SelfAttention 或 SelfSSM。

搜索策略

面对约 7.83×1010(每一个模块可能性算子数的连乘) 的巨大组合空间,为了在效率与效果之间取得平衡,AV-NAS 设计了一个“Coarse Search – Pruning – Fine-tune”三阶段流程。

  • Coarse Search(粗搜索):在连续松弛的搜索空间上进行联合优化,同时更新网络权重 W 与架构参数 α。具体做法是借鉴 DARTS,将每个 cell 的离散算子选择表示为 Softmax 加权的混合形式,使 α可被梯度优化;训练过程中按 epoch 在验证集上评估并保存 mAP 最优的(W*α*,得到训练好的 supernet N(W*,A(α*))。

  • Prune(剪枝):将连续架构转为离散结构。对每个混合算子计算 Softmax 概率,保留概率最高的算子、剪除其余候选,从而确定唯一的确定性架构 A*。此时网络结构固定,W 作为后续训练的初始化。

  • Fine-tune(微调):在固定架构 A*上重新训练 / 微调权重,仅优化 W 以充分适配剪枝后的网络,并在验证集上选取表现最佳的权重 W**。最终输出 AW**,作为视频哈希编码的最终模型。

    InfoNCE 对比学习损失

    AV-NAS 用 InfoNCE 训练哈希表示:对锚样本 a,取同类正样本 p 与若干异类负样本 {ni},通过拉近 a–p 相似度、拉远 a–ni 相似度来优化检索表征:

    图片

    其中 τ为温度系数,sim 通常取余弦相似度函数。这样可促进同类聚合与类间分离,从而增强哈希码的检索判别性。

    实验发现:AI 的

    选择颠覆人类直觉

    作者在两个大型视频检索数据集(ActivityNet 和 FCVID)上验证了 AV-NAS 的有效性。

    主要结果
    最优架构新发现

    在同一 AV-NAS 搜索空间下,分别在 ActivityNet 与 FCVID 上得到两套最优结构 Arch-1 和 Arch-2。两者整体框架高度一致,Fusion 与 Transformation 基本相同,差异主要集中在 Encoder 的细节组件。搜索结果在视觉建模的选择上与专家先验一致(如关键帧的时空建模),但在音频时序建模上明显偏离常见选择:更倾向 “FFN + CNN” 组合,而不是纯 Transformer 或 Mamba,体现出 NAS 能发现更贴合音频特性的结构搭配。

    图 5:图 5a 和图 5b 分别展示了在 ActivityNet(架构 1,Arch-1)和 FCVID(架构 2,Arch-2)上搜索得到的网络架构。

    性能对比

    表 1(行 3-11, 23-24 )展示了 AV-NAS 的实验效果。AV-NAS 在 mAP 指标上整体优于其他方法,体现了其在大规模视频检索场景中的有效性;相较于 AVHash,提升具有统计显著性(p-value < 0.05)。其中,Arch-1(ActivityNet 最优)与 Arch-2(FCVID 最优)分别取得了在各自数据集上的最高 mAP;在交叉测试中,由于两者结构高度相似、差异主要集中在 Encoder 细节,因此检索指标仍能保持在较高水平且波动很小。

    表 1:在 mAP、时间效率 和 模型大小 方面与 SOTA(最先进)方法 的性能对比。

    消融实验
    专家架构 vs. 自动搜索架构

    作者将 AV-NAS 与三类“专家手工设计”多模态网络对比:Transformer、Transformer+(加入 cross-attention)、Mamba,对比结果展示在表 2 中。从表中可以看出, AV-NAS 在 ActivityNet/FCVID 的 32-bit 与 64-bit mAP@100 均为最高,相对最强专家基线在 ActivityNet 上提升约 3–4%,在 FCVID 上提升约 1%,证明 NAS 搜索到的结构确实更适配音视频哈希任务。

    表 2:纯 Transformer 或纯 Mamba 架构与 AV-NAS 搜索得到的架构之间的对比。

    进一步观察上一节图 5 中展示的搜索到的网络架构可以发现:在音频语义的时序建模上,AV-NAS 并没有选择更“主流”的纯 Transformer/Mamba,而是更偏好一种 FFN+CNN 的组合来负责音频语义时序建模。直观上,FFN 更擅长整合音高、音色、情绪等更偏全局 / 线性的整体特征;而 CNN 则更容易捕捉局部的短时模式与局部变化。两者结合,有助于更全面地刻画音频语义。

    单模态 vs. 多模态

    为了验证跨模态交互与融合的有效性,作者进行了两组“单模态”对照实验,结果汇总见表 1 (行 21-22)。去掉音频或去掉视觉(并将 Fusion 替换为 self-fusion)都会明显降低性能,说明声画融合是提升检索质量的关键;视觉通常占主导,但音频能提供稳定增益,与 AVHash 的结论一致。

    不同 NAS 方法对比

    如表 1 (行 12-20, 23-24)所示,在同一搜索空间下,AV-NAS 相比 DARTS、ProxylessNAS、SPOS、ENAS 在 时间效率与性能稳定性上更有优势,并能在两个数据集上稳定取得最高 mAP;随机搜索结果波动较大,进一步体现系统化 NAS 的必要性。

    总    结

    AV-NAS 是多模态视频哈希领域在 NAS 方向的破冰之作。它不仅证明了“自动搜索”比“手工设计”更可靠,更通过数据驱动的方式揭示了视听多模态处理的最佳实践:视觉依赖时空注意力,音频偏好局部与全局的简单组合,而跨模态融合则是 Mamba (SSM) 大显身手的舞台 。

    这项工作为未来大规模视频检索系统的设计提供了全新的思路:与其盲目堆叠复杂的 Transformer,不如把选择权交给数据,让模型自己找到“视”与“听”的最佳平衡点。

    参考文献

    Hanqing Chen, Chunyan Hu, Feifei Lee, Chaowei Lin, Wei Yao, Lu Chen, and Qiu Chen. 2021. A Supervised Video Hashing Method Based on a Deep 3D Convolutional Neural Network for Large-Scale Video Retrieval. Sensors 21, 9 (2021), 3094.

    Yanbin Hao, Jingru Duan, Hao Zhang, Bin Zhu, Pengyuan Zhou, and Xiangnan He. 2022. Unsupervised Video Hashing with Multi-granularity Contextualization and Multi-structure Preservation. In ACM Multimedia. 3754–3763.

    Wenna Wang, Xiuwei Zhang, Hengfei Cui, Hanlin Yin, and Yanning Zhang. 2023. FP-DARTS: Fast parallel differentiable neural architecture search for image classification. Pattern Recognit. 136 (2023), 109193:1–109193:11.

    Yingxin Wang, Xiushan Nie, Yang Shi, Xin Zhou, and Yilong Yin. 2021. Attention Based Video Hashing for Large-Scale Video Retrieval. IEEE Trans. Cogn. Dev. Syst. 13, 3 (2021), 491–502.

    Minghao Chen, Houwen Peng, Jianlong Fu, and Haibin Ling. 2021. AutoFormer: Searching Transformers for Visual Recognition. In ICCV. 12250–12260.

    Hanxiao Liu, Karen Simonyan, and Yiming Yang. 2019. DARTS: Differentiable Architecture Search. In ICLR.

    Boyu Chen, Peixia Li, Chuming Li, Baopu Li, Lei Bai, Chen Lin, Ming Sun, Junjie Yan, and Wanli Ouyang. 2021. GLiT: Neural Architecture Search for Global and Local Image Transformer. In ICCV. 12–21.

    技术人的年度仪式感! 年度盘点与趋势洞察 启动!

    《2025 年度盘点与趋势洞察》由 InfoQ 技术编辑组策划。覆盖大模型、Agent、具身智能、AI Native 开发范式、AI 工具链与开发、AI+ 传统行业等方向,通过长期跟踪、与业内专家深度访谈等方式,对重点领域进行关键技术进展、核心事件和产业趋势的洞察盘点。

    力求以体系化视角帮助读者理解年度技术演化的底层逻辑、创新方向与落地价值,并为新一年决策提供参考。内容将在 InfoQ 媒体矩阵陆续放出,欢迎大家持续关注。

    今日荐文

    图片

    你也「在看」吗?👇

    楼上说的太专业了,我来抖个机灵!

    我觉得避免 NAS 过拟合,就像防止自家孩子沉迷游戏一样,不能完全放任自流,也不能管得太死。

    * 适度干预: 就像家长要引导孩子玩一些益智游戏一样,我们也要在 NAS 的搜索空间中加入一些约束,避免搜索到一些“奇葩”结构。
    * 多加引导: 就像家长要鼓励孩子多参加户外活动一样,我们也要让 NAS 搜索到的结构,多在不同的数据集上“锻炼”,提高泛化能力。
    * 心态平和: 就像家长要接受孩子不是“学霸”一样,我们也要接受 NAS 搜索到的结构,可能不是最完美的,但只要够用就好。

    总之,对待 NAS,我们要像对待孩子一样,多一些耐心和引导,少一些焦虑和控制。

    这个问题很有深度!AV-NAS 的结论确实令人意外,但也提醒我们,不能迷信 Transformer。我觉得不能简单地得出“CNN 比 Transformer 更适合处理音频”的结论,而要具体问题具体分析。

    首先,AV-NAS 的结论是在特定任务(视频哈希)和特定数据集上得出的,不一定适用于所有音视频任务。不同的任务对音频特征的需求不同,可能需要不同的模型结构。

    其次,CNN 和 Transformer 各有优缺点。CNN 擅长捕捉局部特征,FFN 擅长整合全局信息,Transformer 擅长建模长距离依赖。在音频处理中,可能局部特征和全局信息同样重要,因此“CNN + FFN”能够取得更好的效果。

    这个结论对其他多模态任务的启示在于:

    * 不要盲目堆叠复杂的模型: 简单的模型有时也能取得很好的效果。
    * 要充分考虑不同模态的特性: 不同的模态可能需要不同的模型结构。
    * 要通过实验来验证模型的有效性: 不能只凭直觉,要用数据来说话。

    总之,模型选择要根据具体任务和数据来决定,不能一概而论。

    楼上两位说的都有道理!我再补充一点,从用户体验的角度来看,音频信息也能发挥重要作用。

    比如,很多视频平台都有“听视频”的功能,就是把视频内容转换成音频,方便用户在不方便看视频的时候也能了解信息。

    所以,我觉得未来的视频检索,不仅仅要追求准确性,还要考虑如何更好地利用音频信息来提升用户体验,比如:

    * 音频摘要: 自动提取视频中的关键音频片段,方便用户快速了解视频内容。
    * 语音搜索: 用户直接用语音输入关键词,搜索相关的视频。
    * 音频推荐: 根据用户的听觉偏好,推荐相关的视频。

    这些都是很有前景的应用方向,值得我们期待。

    我觉得这个问题问到了点子上!数据驱动固然重要,但也要警惕“唯数据论”。NAS 搜索到的结构,本质上是对训练数据的一种“记忆”,如果训练数据本身存在偏差或者噪声,那么搜索到的结构也会受到影响。

    所以,我觉得关键在于**“平衡”**:

    * 平衡数据和先验知识: NAS 并不是完全从零开始,而是基于一定的搜索空间。这个搜索空间的设计,就需要结合领域专家的先验知识,避免搜索到一些不合理的结构。
    * 平衡效率和效果: NAS 的搜索过程通常非常耗时,需要大量的计算资源。我们需要在效率和效果之间找到一个平衡点,避免过度搜索,导致资源浪费。
    * 平衡探索和利用: NAS 的核心在于探索新的结构。但也要注意利用已有的知识和经验,避免重复发明轮子。

    总之,NAS 是一种强大的工具,但也要理性看待,避免盲目追求“自动化”,而忽略了人类的智慧。

    楼上两位大佬分析得太到位了!我来补充一点,从工程实践的角度来看,AV-NAS 的发现也很有意义。

    在实际项目中,我们经常会遇到“模型越大越好”的误区,认为只要堆叠更多的层、使用更大的参数,就能提高模型的性能。但 AV-NAS 告诉我们,事实并非如此。

    * 更小的模型意味着更快的推理速度: 这对于一些对实时性要求较高的应用场景非常重要。
    * 更小的模型意味着更低的部署成本: 这对于一些资源有限的设备非常重要。
    * 更小的模型意味着更易于维护: 这对于项目的长期发展非常重要。

    总之,AV-NAS 的发现,提醒我们要在追求模型性能的同时,也要关注模型的效率和可维护性,找到一个最佳的平衡点。

    这是一个非常关键的问题!NAS 的确存在过拟合的风险,尤其是在数据集较小或者搜索空间过大的情况下。AV-NAS 采用了一些策略来缓解这个问题,但我觉得还可以从以下几个方面进一步改进:

    * 更大的数据集和更强的正则化: 这是最直接的方法,通过增加数据量和引入正则化项(比如 dropout、权重衰减)来提高模型的泛化能力。
    * 更有效的搜索策略: AV-NAS 使用的是三阶段搜索策略,可以考虑更高级的搜索算法,比如基于强化学习或者进化算法的 NAS 方法,来探索更优的结构。
    * 跨数据集验证: 在搜索过程中,不仅仅在单个数据集上验证模型的性能,而是要同时在多个数据集上进行验证,选择泛化能力更强的结构。
    * 知识蒸馏: 将搜索到的最优结构作为一个“老师”,训练一个更小的“学生”模型,从而提高模型的泛化能力和推理效率。

    总之,避免 NAS 过拟合是一个需要持续关注的问题,需要我们在算法、数据和训练策略等方面不断探索和改进。

    这个问题很有意思!我从另一个角度来谈谈我的看法:

    我感觉“忽视”这个词可能不太准确。更确切地说,应该是**“未充分利用”**。音频信息一直存在,但如何有效地提取和利用这些信息,确实是一个挑战。

    我觉得未来的研究方向可以考虑:

    * 更先进的音频特征提取方法: 不仅仅是传统的频谱分析,而是要利用深度学习等技术,提取更高级的音频语义特征。
    * 多模态融合策略: 如何将音频和视频信息更好地融合,而不是简单地拼接在一起,需要更巧妙的方法。
    * 针对特定场景的音频分析: 比如,在监控视频中,异常声音的检测可能比语音识别更重要。

    总而言之,音频信息在视频检索中还有很大的潜力可以挖掘,需要我们不断探索新的技术和方法。

    我觉得这个问题很有意思!让我想起了那句老话:“没有最好的模型,只有最合适的模型”。

    AV-NAS 的发现,打破了我们对 Transformer 的迷信,让我们重新审视 CNN 的价值。但也并不意味着 CNN 就一定比 Transformer 好。关键在于**“合适”二字。

    从任务角度来看: 如果任务需要捕捉音频的局部特征,比如音频事件检测,那么 CNN 可能更适合。如果任务需要建模音频的长距离依赖,比如语音识别,那么 Transformer 可能更适合。
    从数据角度来看: 如果数据量较小,那么 CNN 可能更容易训练,避免过拟合。如果数据量较大,那么 Transformer 可能更容易发挥优势。
    * 从资源角度来看: 如果计算资源有限,那么 CNN 可能更高效。如果计算资源充足,那么 Transformer 可能更强大。

    总之,选择模型要根据具体情况来权衡利弊,找到最适合当前任务的模型。

    这个问题提得好!很多人可能觉得视频检索主要看画面,但音频其实隐藏着很多有价值的信息。除了背景音乐和对白,我觉得还可以考虑以下几点:

    * 环境声音: 比如,在自然纪录片里,可以通过识别鸟叫、水流等声音来判断视频的场景。
    * 音效: 爆炸声、刹车声等音效往往暗示着视频中的事件。
    * 说话人的情感: 通过分析语音的语调、语速等特征,可以判断说话人的情绪,这对于理解视频内容很有帮助。
    * 音频质量: 音频质量的好坏也能反映视频的拍摄环境和制作水平,可以作为辅助判断的依据。

    总之,音频信息可以从多个维度补充视频的语义信息,帮助我们更全面地理解视频内容,提高检索的准确性。