炸裂登场！搭载了 ChatGPT 的机器人到底有多强 | 大模型一周大事

ai-front · 2024 年3 月 18 日 09:18

大模型的快节奏发展，让了解最新技术动态、积极主动学习成为每一位从业者的必修课。InfoQ 研究中心期望通过每周更新大模型行业最新动态，为广大读者提供全面的行业回顾和要点分析。现在，让我们回顾过去一周的大模型重大事件吧。

重点发现

在过去一周，Figure 01 机器人因其卓越的性能而成为热议的焦点。这得益于它搭载的 OpenAI 大模型和 ChatGPT 技术，使其在多个方面都展现出了令人瞩目的能力。首先，Figure 01 装备了先进的听觉系统，不仅能理解人类的语音指令并做出精准反应，还能以清晰的发音和自然的语调与人对话，让交流过程仿佛与真人无异。其次，该机器人的动作控制也处于行业领先水平。无论是精细的手部操作还是复杂的全身运动，它都能轻松完成，表现出高度的精确性和敏捷性。这一切归功于其内置的高级传感器和执行器，以及 OpenAI 大模型提供的算法支持，确保了动作的灵活性和准确性。除了听说能力和灵活的动作之外，Figure 01 还具有学习和自适应能力。通过机器学习技术，它能从经验中不断学习，优化行为模式，以更好地适应不同环境和任务需求。

具体内容

大模型持续更新

一家名为 Cohere 的人工智能初创公司推出了一款名为 Command-R 的大模型，这是一款针对大规模生产工作的全新大语言模型。目前，Cohere 已在 Huggingface 上开放了模型权重。
宁德核电发布了自主训练的大模型「锦书」，这是一款专为核工业领域打造的大语言模型，其参数规模达到 720 亿，堪称全球参数量最大的核工业大模型。

多模态领域

华为诺亚方舟实验室联合多个研究机构在《PixArt-Σ: Weak-to-Strong Training of Diffusion Transformer for 4K Text-to-Image Generation》中提出了一款名为 PixArt-Σ 的扩散变换器模型（DiT），它能够直接根据文本提示生成高达 4K 分辨率的图像。同时，通过引入高质量的训练数据与高效的令牌压缩，使得 PixArt-Σ 在模型大小（0.6B 参数）上远小于现有的文本到图像扩散模型，同时在图像质量和用户提示遵循能力上都有了显著提升。
清华大学丁贵广教授团队和阿里安全联合发布的概念半透膜模型（concept Semi-Permeable Membrane，SPM 模型），能够在 Diffusion 架构的 AI 作图模型中，精准、可控地擦除各类具象或抽象概念，并对无关概念做到几乎完全保留，相关成果记录在论文《One-dimensional Adapter to Rule Them All: Concepts, Diffusion Models and Erasing Applications》中。
苹果公司公布了最新的多模态大型语言模型— MM1，参数达到 300 亿，采用 MoE 变体架构。相关研究成果记录在论文《MM1: Methods, Analysis & Insights from Multimodal LLM Pre-training》中。

科研领域

3 月 12 日，基于 AI 的蛋白质和其他生物系统设计领域的全球领导者 Basecamp Research，宣布推出其新的深度学习模型 BaseFold 。与其他 AI 驱动的模型相比，该模型可以比其他 AI 工具更准确地预测大型复杂蛋白质的 3D 结构。

开源领域

3 月 12 日，OpenAI 机器学习研究员 Jan Leike 宣布，OpenAI 开放了内部用于分析 Transformer 内部结构的工具—Transformer Debugger（TDB）。TDB 结合了自动可解释性「即使用大模型解释小模型」和稀疏自动编码器，并且允许在不编写代码的情况下快速探索模型的架构，这为探索语言模型的自我解释能力提供了早期研究的工具。

应用探索

产品新功能 / 插件

Midjourney 发布的一项名为角色参考的新功能，这可以让用户在新生成图像中保持之前图像角色的一致性，即将同一人物添加到不同的场景当中。
Pika 发布了一项给视频无缝生成音效的新功能— Sound Effects，用户可以通过 Prompt 来描述自己想要的声音，或者用户可以直接让 Pika 根据视频内容自动生成音效。

智能体

谷歌推出最新版的 RT 系列机器人—— RT-H ，它能通过将复杂任务分解成简单的语言指令，再将这些指令转化为机器人行动，来提高任务执行的准确性和学习效率。相关的研究成果发布在论文《 RT-H: Action Hierarchies Using Language 》中。
3 月 13 号，机器人创业公司 Figure 发布了自己第一个 OpenAI 大模型加持的机器人 Figure 01 的相关视频。视频显示，在搭载了 OpenAI 的多模态大模型后，机器人不仅能够理解人类谈话的内容，而且还能根据人类的要求完成指令任务（如递苹果、收拾桌面、将杯子与盘子放到指定位置）。同时 Figure 01 的速度有了显著的提升，开始接近人类的速度。
谷歌宣布了一种适用于 3D 虚拟环境的通用 AI 智能体——SIMA（Scalable Instructable Multiworld Agent）。通过 SIMA 发出的指令，AI 智能体在游戏中能完成人类能完成任务的 60%。
机器人 AI 公司 Covariant 正式宣布推出机器人领域的通用基础模型 RFM-1（机器人版 ChatGPT），因为 RFM-1 整合了相关语言数据，因此使用者只用自然语言就可以指导机器人完成相应的工作。
3 月 12 日，Cognition AI 公司认知实验室（Cognition Labs）推出了世界上首位全自主人工智能软件工程师— Devin , 它可以在几分钟内独立完成整个软件项目，能够进行复杂的多步骤推理，即使执行了数千项任务也不会出错。

终端 AI

3 月 13 日，在荣耀笔记本 AI PC 技术沟通会上，荣耀公布了其 AI PC 技术架构，荣耀笔记本将会把 AI 技术与用户体验全面融合，用 AI 使能智能硬件、人机交互和多端生态，开启 AI PC 新时代。同时此次发布的 AI PC 技术，将会全面落地荣耀 MagicBook Pro 16。

基础设施

芯片

人工智能超级计算机公司 Cerebras 推出其下一代晶圆级 AI 芯片——Wafer Scale Engine 3 ，其包含了 4 万亿个晶体管。由于使用了更新的芯片制造技术，WSE 3 单机可训练比 GPT4 大 10 倍的模型。

算法

华为诺亚方舟实验室在研究成果《DenseMamba: State Space Models with Dense Hidden Connection for Efficient Large Language Models》中提出了一种用于增强 SSM 中各层间隐藏信息的流动的新方法— DenseSSM。其通过有选择地将浅层隐藏状态整合到深层，保留了对最终输出至关重要的浅层细粒度信息，增强了深层感知原始文本信息的能力。
佐治亚理工学院的研究人员在《scDisInFact: disentangled learning for integration and prediction of multi-batch multi-condition single-cell RNA-sequencing data》上介绍了一个深度学习框架—— scDisInFact，其可以对单细胞 RNA 测序（scRNA-seq）数据中的批次效应和条件效应进行建模。
来自南加州大学、微软的研究者在《Guiding Large Language Models with Divide-and-Conquer Program for Discerning Problem Solving》中提出了一种基于分治算法的提示策略来使 LLM 更好地分辨并尽可能避免受到幻觉引发的中间错误的影响。
腾讯和复旦大学的研究团队在《MovieLLM: Enhancing Long Video Understanding with AI-Generated Movies》中提出了一个创新性的 AI 生成框架— MovieLLM。通过这一框架不仅可以生成高质量、多样化的视频数据，而且能自动生成大量与之相关的问答数据集，极大地丰富了数据的维度和深度，同时整个自动化的过程也极大地减少了人力的投入。
清华大学和哈工大在一项联合研究《OneBit: Towards Extremely Low-bit Large Language Models》中提出了大模型 1bit 极限压缩框架 OneBit，这一框架使得大模型权重在压缩超越 90% 的情况下保留大部分（83%）能力。
来自浙江大学、中科院软件所等机构的研究人员在《Agent-Pro: Learning to Evolve via Policy-Level Reflection and Optimization》中提出了一种新的 Agent 进化策略，从而打造了一款会玩德州扑克的“狡猾”智能体 Agent-Pro。通过不断优化自我构建的世界模型和行为策略，Agent-Pro 掌握了虚张声势、主动放弃等人类高阶游戏策略。

数据库

3 月 11 日，零一万物宣布推出基于全导航图的新型向量数据库笛卡尔（Descartes）。同时零一万物还表示，笛卡尔向量数据库将用在近期即将正式亮相的 AI 产品中，未来也将结合工具提供给开发者。

其他

3 月 13 日，社交、科技巨头 Meta 在官网公布了 Llama-3 模型的训练进展，并公布了两个全新的 24k GPU 集群（共 49152 个 H100）。同时 Meta 也分享了新集群在硬件、网络、存储、设计、性能和软件方面的详细信息，新集群将为各种人工智能工作负载获取高吞吐量和高可靠性。

除了每周的动态更新，InfoQ 研究中心也将以季度为周期，发布《大模型季度监测报告》，跟踪大模型行业的最新动态和相关产品测试。《2023 年第 4 季度中国大模型季度监测报告》预计将于 2024 年 3 月底正式发布，届时还将发布文生图产品大测评。本次文生图产品测评将基于实体对象、风格能力、细节难点、价值观和中文特色五大维度展开。如您期望 InfoQ 对旗下产品进行测试，或想要参与报告内容共建，欢迎联系微信：Bettycbj1996（添加好友请注明来意）

每周动态更新和季度报告后续均会在 AI 前线上发布，欢迎持续关注 AI 前线公众号，共同见证大模型行业的发展与突破！

活动推荐

AICon 全球人工智能与大模型开发与应用大会暨通用人工智能开发与应用生态展将于 5 月 17 日正式开幕，本次大会主题为「智能未来，探索 AI 无限可能」。如您感兴趣，可点击「阅读原文」查看更多详情。

目前会议 8 折优惠购票，火热进行中，购票或咨询其他问题请联系票务同学：13269078023，或扫描上方二维码添加大会福利官，可领取福利资料包。

今日荐文

你也「在看」吗？ 👇