零功耗光学AI图像生成器:浙大校友研究登Nature,开辟能效新未来

光学AI图像生成实现近零功耗,为未来计算提供了新思路,成果登《自然》!

原文标题:用光学生成图像,几乎0耗电,浙大校友一作研究登Nature

原文作者:机器之心

冷月清谈:

加州大学洛杉矶分校的Shiqi Chen等在《自然》杂志发表了一篇关于光学AI图像生成器的论文。该模型灵感来源于扩散模型,其独特之处在于利用光而非传统电子计算来生成图像,从而实现了几乎为零的电量消耗。它首先通过数字编码器生成静态噪声模式,然后由空间光调制器(SLM)将噪声刻印到激光束上,最终通过光束转换生成目标图像。实验结果显示,该光学系统生成的图像质量与传统AI生成器相当,并在MNIST、Fashion-MNIST数据集以及高分辨率梵高风格艺术作品生成上表现出色。这项技术凭借其超高速和超低能耗的特点,具备广泛的应用前景,尤其是在VR/AR显示、智能手机和AI眼镜等可穿戴设备的小型化终端。尽管目前仍处于物理实验阶段,尚未完全投入实用,但它为高能效、可扩展的AI图像生成提供了新的方向。

怜星夜思:

1、论文提到光学AI仍处于物理实验阶段,离实用还有距离。大家觉得它最大的落地挑战会是什么?是成本、稳定性还是技术成熟度?
2、传统AI模型消耗巨大电能,而光学模型几乎0耗电。如果这项技术大规模普及,会对数据中心、气候变化甚至芯片行业带来哪些深远影响?
3、除了文章提到的VR/AR和可穿戴设备,大家还能想到哪些特别适合这种超低能耗、超高速光学AI的应用场景?比如在边缘计算或者特定工业领域?

原文内容

机器之心报道

编辑:张倩、陈陈

见过省电的模型,但这么省电的,还是第一次见。


在 《自然》 杂志发表的一篇论文中,加州大学洛杉矶分校 Shiqi Chen 等人描述了一种几乎不消耗电量的 AI 图像生成器的开发。



该生成器是一种受扩散模型启发的光学生成模型。其工作原理如下:首先通过数字编码器(使用公开数据集训练)生成最终构成图像的静态噪声,这一过程仅需消耗极少能量。随后,一种被称为空间光调制器(SLM)的液晶屏幕会将这种噪声模式刻印到激光束上。该激光束再通过第二台解码 SLM 装置,将光束中的噪声模式转化为最终图像。


与传统 AI 依赖数百万次计算机运算不同,该系统利用光完成所有核心工作,因此几乎不消耗电能。论文第一作者 Shiqi Chen 表示:「我们的光学生成模型几乎无需算力就能合成海量图像,为数字 AI 模型提供了可扩展且高能效的替代方案。」


研究人员采用多种 AI 训练图像对系统进行测试,包括名人肖像、蝴蝶图像以及梵高风格的全彩画作。结果显示,光学系统生成的图像效果与传统图像生成器相当,但能耗显著降低。



该技术还具有广泛的应用前景。凭借其超高速和超低能耗特性,该系统可用于生成 VR、AR 显示的图像视频,也适用于智能手机、AI 眼镜等可穿戴电子设备的小型化终端。



  • 论文标题:Optical generative models

  • 论文地址:https://www.nature.com/articles/s41586-025-09446-5


不过,该模型目前仍处于物理实验阶段,离实用还有一段距离。



方法概览


本文提出的光学生成模型,能够根据目标数据分布合成单色或彩色图像 —— 即通过光学方法生成特定数据分布中前所未见的新图像。受扩散模型启发,该方案采用浅层数字编码器将随机二维高斯噪声模式快速转换为代表光学生成种子的二维相位结构。这种光学种子的产生是一次性的,它涉及一个作用于随机二维噪声模式的浅而快速的相位空间编码器


根据目标分布即时生成图像或输出数据的过程,可通过随机调用这些预先计算好的光学生成种子按需实现。这一广义概念可通过不同光学硬件实现,集成光子学或基于自由空间的实现。


即时图像生成


图 1 展示了作者研发的单色图像即时生成模型的原理示意图。如图 1a 所示,遵循正态分布的随机二维输入首先通过数字编码器转换为二维相位模式,该编码器可快速提取潜在特征并将其编码至相位通道以供后续模拟处理。这些由随机噪声生成的相位编码输入作为光学生成种子,被加载到 SLM 中,为衍射光学生成模型提供信息输入。在相干光照下,携带编码相位模式的光场继续传播并通过为特定目标数据分布优化的衍射解码器进行处理。最终,生成的图像由图像传感器捕获,这些图像符合目标数据分布特征。


图 1b 展示了训练流程:作者首先基于去噪扩散概率模型(DDPM)训练教师数字生成模型以学习目标数据分布。完成训练后,冻结该 DDPM 模型并持续生成用于训练即时光学生成模型的噪声 - 图像数据对。浅层数字相位编码器与光学生成模型通过联合训练,使模型能够以简洁可重构的架构高效学习目标分布。


图 1c 呈现了盲推理过程:由数字编码器从随机噪声模式产生的编码相位模式(即光学种子)是预先计算的,光学生成模型则使用固定的静态解码器在自由空间中对这些生成相位种子进行解码。为实现从随机高斯噪声快速合成光学生成相位种子,数字编码器包含三个全连接层,其中前两层采用非线性激活函数(详见方法部分)。可重构衍射解码器通过 400 × 400 个可调相位特征(每个特征覆盖 0-2π 范围)进行优化,完成优化后针对每个目标数据分布保持静态。


图 1


迭代式光学生成模型


作者还设计了一种迭代式光学通用模型,可从高斯噪声中递归重建目标数据分布。如图 2a 所示,该迭代光学生成模型同样工作在三个照明波长下,通过浅层数字相位编码器编码的多通道相位图案被顺序加载到同一 SLM 上。


为展示这种迭代光学模型的生成能力,作者采用 Lₒ=5 个联合优化并固定的解码层来处理目标数据分布。与前述即时光学生成模型的不同之处在于:当图像传感器平面记录初始强度图像后,测量结果会按设计方差添加高斯噪声,该噪声扰动结果将作为下一时间步的迭代光学输入。


图 2b 展示了这种迭代光学生成模型的训练过程:采样一批时间步并相应地向原始数据添加噪声,获得噪声样本。这些噪声样本经过浅层数字编码器和迭代光学生成模型处理,得到连续输出。与标准 DDPM 实现不同,该迭代光学生成模型直接预测去噪样本,其损失函数根据原始数据计算。


图 2c 概述了迭代式光学生成模型的盲推理过程:已训练的光学模型对从最终时间步到初始时间步的扰动样本递归执行去噪操作,最终生成的图像在传感器平面捕获(详见方法部分)。



图 2


实验及结果


在初步实验中,研究者分别基于 MNIST 和 Fashion-MNIST 数据集训练了两个不同的模型,用于生成手写数字和时尚商品图像。


图 3c 为两个模型的结果,生成的图片在 MNIST 和 Fashion-MNIST 数据集上分别达到了 131.08 和 180.57 的 FID 实验评分。这表明生成的图片符合这两个数据集的目标分布,充分体现了所设计系统的多样性,进一步验证了快照式光学生成模型的可行性。



生成手写数字


生成时尚商品


研究者进一步将实验结果拓展至更高分辨率的梵高风格艺术作品生成。


图 4 与图 5 分别展示了使用 5.8 亿参数数字编码器实现的高分辨率单色及彩色(RGB)图像生成实验结果。其中梵高风格单色图像采用 520 纳米波长照明生成,而彩色图像则依次使用 {450, 520, 638} 纳米波长分别对应蓝、绿、红三通道。



在多色梵高风格艺术图像生成实验中,研究者为每个波长通道生成了相应的相位编码生成种子图案,并依次加载到空间光调制器(SLM)上。在对应波长的照明下,利用固定或静态的衍射解码器生成多彩图像,并通过数字方式进行融合。换言之,在所有波长照明下的图像生成过程中,系统共享同一个解码器状态。


图 5 展示了多色梵高风格艺术作品的生成结果,其中既包含与教师数字扩散模型输出高度吻合的案例,也包含具有差异性输出的示例(该教师模型需使用 10.7 亿可训练参数并通过 1000 次迭代步骤生成单幅图像)。尽管观察到轻微的色差现象,生成的高分辨率彩色图像仍保持了优异的质量。



作者介绍


Shiqi Chen,加州大学洛杉矶分校(UCLA)博士后研究员,导师为 Aydogan Ozcan 教授。此前,他在浙江大学获得博士学位,师从冯华君教授和徐之海教授。


Shiqi Chen 在博士期间主要研究重点是应用光学和计算机视觉,以实现更清晰的计算成像,其中部分研究成果已应用于最新的移动终端设备。



  • 个人主页:https://tangeego.github.io/



© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:liyazhou@jiqizhixin.com


哇,看到这个问题眼睛都亮了!我想到的第一个就是户外应急救援!山里或者灾区,没电但是需要用AI分析现场情况、识别目标,这种超低功耗简直是救命稻草。再比如,无人机续航问题一直是个大难题,如果AI处理部分能耗很低,无人机就能飞得更久,执行更多任务。总之,任何对续航和处理速度有极致要求,又难以充电的场景,光学AI都应该大显身手!

问到落地挑战嘛,我猜最大的难题可能是如何让传统的“电老虎”们甘心让位给“光耗子”。开个玩笑啦!不过讲真,一个全新的技术体系要替代或并行现有体系,除了技术本身,还有生态、产业链的成熟度、甚至大众认知度等一系列非技术因素。大家习惯了用电,用光虽然省,但总得有个适应过程。

回答关于“光学AI落地挑战”的问题。我认为,除了文章提到的物理实验阶段,最大的挑战可能在于系统的小型化和集成度。目前的SLM等光学元件相对较大,要在智能手机或AI眼镜中实现小型化,还需要在材料科学和微纳光学领域取得突破。另外,对环境光线的抗干扰能力大规模生产的良品率也会是重要的考量因素。

针对“超低能耗、超高速光学AI应用场景”的问题。我认为在高分辨率的医疗影像分析(如实时病理切片或手术导航)、工业4.0领域的实时缺陷检测、以及自动驾驶所需的快速环境感知与决策等边缘计算场景中,光学AI具有巨大潜力。这些场景往往对延迟和功耗有极高要求,传统电子计算瓶颈明显。此外,卫星遥感图像的即时处理量子计算前沿的数据预处理也可能是极佳的应用方向。

关于光学AI的普及影响,我觉得可能没那么快就“颠覆”一切。对数据中心来说,能耗确实是痛点,光学方案要是成熟了肯定会引入,但现有设备的折旧和替换周期也很长。对气候变化,当然是积极作用,但AI的能耗只是整体碳排放的一部分。至于芯片行业,肯定会催生新的赛道,但传统芯片在通用计算上的优势依然存在,更多可能是形成互补,或者在特定场景下光学更有优势。完全取代还需要很长时间。

回答“光学AI普及后的影响”这个问题。其影响无疑是革命性的。对数据中心而言,能耗将大幅削减,冷却需求降低,运营成本锐减,甚至可能改变数据中心的地理分布;对气候变化来说,AI碳足迹的显著 감소 将是重大利好,加速绿色科技发展。至于芯片行业,现有的GPU、NPU巨头可能需要快速转型或投资光学计算领域,催生全新的光学芯片设计与制造产业,甚至改变半导体材料的研发方向。这是一个从底层硬件到上层应用,再到环境和社会层面的全面洗牌。

说到光学AI的落地挑战,我觉得啊,最现实的可能是成本和稳定性。你想想,现在AI芯片都卷成啥样了,如果光学生成的设备一开始特别贵,普通消费者肯定不买账。而且,光学设备在振动、温度变化下的稳定性也得考虑,可不能动不动就跑偏、成像模糊了吧?技术是牛逼,但商业化落地还得“接地气”。

问到影响?那可就大了!要是光学AI大规模普及,我第一反应就是以后挖矿再也不用拼显卡了,直接拼“光卡”?开玩笑哈哈哈。讲正经的,我觉得最直接的影响就是家里的电费账单可能会瘦一大圈,因为很多本地AI计算可能都不怎么耗电了。然后,各种智能设备续航估计也会得到史诗级增强。至于芯片行业,可能要多出一个“光学芯片设计工程师”的高薪热门职业了!简直是AI界的“节能减排”模范生啊。