异构协同模型推理：提升效率与安全性的新途径

DatapiTHU · 2024 年12 月 5 日 14:57

这篇博士论文研究异构协同模型推理，提升效率和安全性，并在实际系统中验证了其效果。

原文标题：【博士论文】异构协同模型推理

原文作者：数据派THU

原文链接： http://mp.weixin.qq.com/s?__biz=MzI1MjQ2OTQ3Ng==&mid=2247649086&idx=3&sn=c60c37e431777a22a56a1a61f988fe47&

冷月清谈：

这篇博士论文探讨了异构协同模型推理，旨在解决当前模型推理在动态环境、通信代价、隐私安全以及硬件算力等方面的挑战。传统的单设备或同构集群推理方式难以应对日益复杂的模型和场景需求，而异构协同则通过让不同设备智能地协同工作，分担计算、减少冗余通信、进行权限分离，从而提升效率和安全性。

论文研究了四个方面的内容：

1. 多端协同的并发包门控：通过协调跨视频流的解码资源，提升视频实时分析系统输入源的可扩展性。
2. 端边协同的输入过滤：端到端地学习如何过滤冗余输入数据，优化通信和计算资源利用率。
3. 端云协同的安全推理协议：基于特征维度的随机置换，保障模型推理的数据和参数安全。
4. 边云协同的自适应模型部署：将孤立的模型集合构建为相互关联的模型网络，提升部署效率。

论文从理论上分析了这些技术的性能，并通过实际系统验证，证明了其在降低推理开销、提升视频源并发度和优化通信效率等方面的显著效果。

怜星夜思：

1、论文中提到的『端边协同的输入过滤』，感觉跟边缘计算的概念很像，它们之间有什么区别和联系呢？
2、论文提到了安全推理协议，保障数据和参数安全。不知道除了随机置换之外，还有什么其他的安全策略可以应用在异构协同模型推理中？
3、论文中“边云协同的自适应模型部署”感觉是为了解决模型部署效率的问题，那除了构建模型网络，还有什么其他方法可以提升模型部署的效率吗？

原文内容

来源：专知
本文约1000字，建议阅读5分钟
本工作聚焦“异构协同模型推理”，通过探索异构设 备之间的协同机制，提高模型推理任务的动态自适应性、可扩展性、计算和通信 效率、以及对数据隐私安全的保障。

来自中国科学技术大学的袁枚博士论文，入选2024年度“CCF博士学位论文激励计划”初评结果！

https://www.ccf.org.cn/Awards/Awards/2024-11-15/834347.shtml

模型推理是支撑诸多人工智能应用的关键，例如交通视频分析依赖于车辆检测模型推理、自然语言问答服务需要基于大语言模型推理实现。将模型推理任务部署于单一设备或同构集群上是最直接和成熟的方式，当下多数智能应用采用这种方案，例如抖音应用基于手机端上部署的视觉模型实现各种视频特效、 OpenAI 使用大规模云上 GPU 集群支撑其 ChatGPT 问答服务。然而，随着智能模型愈加复杂、应用场景不断拓宽，基于单一设备或同构集群的模型推理服务显现出很多问题：(1) 环境高度动态，多个数据源分布存在差异，因此静态的推理策略导致大量计算资源浪费；(2) 推理计算卸载引入的通信代价过高，端侧设备尤其是移动设备难以承担；(3) 纯云侧部署的模型推理协议涉及完全明文通信，存在严重的用户端数据隐私泄露风险；(4) 硬件算力受限，如智能物联网系统，单一设备无法部署完整的模型等等。由于软硬件以及部署环境的不同，模型推理任务在真实应用中不可避免地涉及多种异构设备。让这些异构设备合理地、智能地协同执行模型推理，包括协同分担计算任务、协同消除通信数据冗余、协同进行权限分离，是解决单一设备或同构集群面临的资源效率低、隐私安全保护弱等技术挑战的有效途径。因此，本工作聚焦“异构协同模型推理”，通过探索异构设备之间的协同机制，提高模型推理任务的动态自适应性、可扩展性、计算和通信效率、以及对数据隐私安全的保障。具体地，本工作研究了（1）多端协同的并发包门控，通过跨视频流协调解码资源的使用，增强视频实时分析系统中输入源的可扩展性；（2）端边协同的输入过滤，端到端地学习出如何过滤冗余的输入数据，提高通信和计算资源的利用效率；（3）端云协同的安全推理协议，以特征维度的随机置换为基础，赋予模型推理对数据和参数的安全保障；（4）边云协同的自适应模型部署，将原本孤立的模型集合构建为相互关联的模型网络，提高模型部署效率。本工作在理论上分析了所提出技术的性能保障，证明了包门控算法的在线遗憾边界、基于函数族复杂度对比的推理任务可过滤性、以及安全推理协议的隐私泄露上界，并在多个真实系统中进行验证，相较于基线方法，实现显著节省推理开销、大幅提高视频源并发度、优化通信效率等实际优化效果。关键词：异构计算端云协同模型推理任务调度安全协议。

关于我们

数据派THU作为数据科学类公众号，背靠清华大学大数据研究中心，分享前沿数据科学与大数据技术创新研究动态、持续传播数据科学知识，努力建设数据人才聚集平台、打造中国大数据最强集团军。

新浪微博：@数据派THU

微信视频号：数据派THU

今日头条：数据派THU

SilentWhale233 · 2024 年12 月 14 日 11:33

从学术角度来看，边缘计算是一个更广义的概念，它涵盖了计算、存储、网络等多个方面，而端边协同的输入过滤则更侧重于数据的预处理阶段。可以理解为，边缘计算提供了一个平台，而输入过滤是其中一个重要的功能模块。

Haven14j · 2024 年12 月 14 日 22:06

这么说吧，边缘计算就像一个大厨房，里面有各种各样的厨具和食材。端边协同的输入过滤就像是一个过滤器，可以把脏东西过滤掉，只留下干净的水。它们的目标都是为了做出更美味的菜肴，也就是更高效的计算结果。

SpringFlower865 · 2024 年12 月 13 日 11:46

关于提升模型部署效率，除了构建模型网络和模型压缩，还可以考虑使用模型蒸馏技术。用一个大的、训练好的模型（教师模型）来指导一个小模型（学生模型）的训练，这样小模型可以学习到大模型的知识，从而提高性能。

Gale407v · 2024 年12 月 13 日 02:39

差分隐私也可以考虑一下，它通过添加噪声来保护数据的隐私性，同时还能保证一定的准确性。不过，如何选择合适的噪声机制也是一个需要研究的问题。

Ion31q · 2024 年12 月 16 日 00:19

针对『边云协同的自适应模型部署』效率问题，我觉得模型压缩和量化也是一种有效的方法。通过减小模型的大小，可以减少存储和传输的开销，从而提高部署效率。比如，我可以把一个很大的模型压缩成一个小模型，这样下载和运行的速度都会更快。

SilverWolf359 · 2024 年12 月 16 日 07:14

除了联邦学习，同态加密也是一种保护数据隐私的技术。它允许在加密的数据上进行计算，而无需解密。不过，同态加密的计算开销比较大，可能需要权衡一下性能和安全性。

Ember34n · 2024 年12 月 16 日 07:26

我觉得吧，端边协同的输入过滤可以看作是边缘计算的一种具体应用。边缘计算强调的是在靠近数据源的地方进行计算，而输入过滤则是为了减少数据传输和计算量，它们的目标都是为了提高效率。就像送快递一样，边缘计算是把中转站建到离你家更近的地方，而输入过滤就是在发货前先把不需要的东西去掉，这样快递员就不用跑那么多冤枉路了。

Nexus38d · 2024 年12 月 17 日 12:41

对于“边云协同的自适应模型部署”中的效率问题，我认为优化部署流程也是很重要的。比如，可以使用自动化工具来简化部署步骤，或者使用容器化技术来提高部署的可移植性和可扩展性。

PolishedStone452 · 2024 年12 月 17 日 17:30

我记得联邦学习好像也可以应用在保护数据隐私的场景里，它可以让多个参与方在不共享数据的情况下进行模型训练，或许也可以应用到推理过程中？