国内首个视频生成模型亮眼!MiniMax:大模型比拼谁跑得快

原文标题:MiniMax 视频生成模型首秀!闫俊杰:大模型的研发核心是“快”

原文作者:AI前线

冷月清谈:

**MiniMax发布首个视频生成模型**

国内AI公司MiniMax正式公布旗下视频生成模型。创始人闫俊杰强调,视频生成是人工智能发展的必然趋势,想要高渗透率和用户粘性,动态内容输出尤为关键。

大模型研发核心在于快

闫俊杰认为,大模型研发的核心是“快”,即用相同的算力,创造出更优秀的效果。MiniMax通过自研MoE+线性注意力技术,提升了模型训练和响应效率,在超长序列处理方面优势明显。

技术力为王,产品盈利是技术好坏的证明

闫俊杰强调,产品不赚钱是技术不够好。MiniMax将技术视为核心竞争力,不断打磨产品,提升用户粘性,进而实现商业变现。国内外市场策略也有所区分,国内偏重工具属性,海外则注重用户体验。

大模型竞争趋势

MiniMax淡然面对大厂竞争,认为只有更快地提升技术和用户共创才能立于不败之地。同时,国内大模型价格战促进了模型使用量增长,并带动了海外竞争力的提升。




怜星夜思:


1、如何提升视频生成模型的训练效率?
2、对于普通用户而言,视频生成模型带来哪些好处?
3、从技术角度来看,视频生成模型的突破性进展体现在哪些方面?




原文内容



图片

上面是 MiniMax 最新推出的视频模型 video-01 生成的效果。“这只是我们的第一版,很快还会有更新的版本。” MiniMax 创始人闫俊杰说道。

在 MiniMax 内部,多模态已经是一件非常确定的事情了。

“在人类社会,大模型的核心意义是做更好的信息处理,而大部分的信息体现在多模态内容里,而非文字上,文字很多时候只是其中精华的一小部分。”闫俊杰解释道。

“为了有非常高的用户覆盖度和使用深度,唯一的办法就是能够输出动态的内容,而非只输出单纯的文字内容,这是一个非常核心的判断。”用户的渗透率和使用深度是闫俊杰这次创业非常关注的事情。在他看来,这两点是达成“Intelligence with Everyone”的核心,也是 MiniMax 的差异化能力。

用户方面,MiniMax 已经有了不错的成绩。据统计,MiniMax 每日与全球用户进行超 30 亿次交互,处理超 3 万亿文本 token、2000 万张图片和 7 万小时语音,大模型日处理交互量排名国内 AI 公司首位。

但在视频生成赛道,MiniMax 的发布算不上早。闫俊杰对此的解释是,“我们在解决一个更难的技术问题:如何能够原生地训练算力比较高的东西。”

具体来说,首先,训练视频生成能力时也需要先把视频变成一些 token,视频变成的 token 非常长,越长复杂度就越高,MiniMax 团队要做的就是在算法上把复杂度降低、压缩率变得更高。

其次,视频还很大,比如 5 秒的视频有几兆,而 5 秒看到的文字可能不到 1K,这是千倍的存储差距。因此,之前基于文本模型的基础设施,对视频模型来说是不适用的,这意味着要对基础设施进行升级。

“一两周新的东西出来,并达到我们更加满意的状态后,可能会考虑商业化。”闫俊杰表示。

“能带来数倍提升的技术才
值得投入研发”

视频生成模型的研发更让闫俊杰坚定了一件事:无论是视频、文本还是声音,核心都不是让一个算法带来 5%、10% 的提升,重要的是找到提升数倍的方式,如果能够提升数倍就一定要做出来,如果只提升 5% 就不太值得做。

“从读书、工作,到现在创业,我对技术的理解慢慢变得非常简单,就是第一性原理。技术,特别是有很大研发投入的技术,追求的不应该是 10% 的提升,如果一个技术的提升只有 10%,那这个技术就不应该做,原因是你不做也会有人做或有人开源出来,其实根本不需要自己研发。”闫俊杰对 InfoQ 表示。

“对创业来说,一块钱掰成几份来花是非常难的。像我们这样的创业公司,真正应该花钱做的研发是那种能够带来几倍变化的技术,这种东西很多时候如果我们自己不做,外面也没有,但对满足用户的需求又很重要,只能自己来做,这样的才是核心的东西。”闫俊杰说道。

那么,MiniMax 做大模型的核心是什么?

闫俊杰的答案是:快 = 好。

在率先判断出 MoE 技术路线后,MiniMax 又推出基于 MoE+ Linear Attention 的新一代模型技术。通过此新型线性模型架构,MiniMax 大模型能在单位时间内更加高效地训练海量数据,极大地提升了模型的实用性和响应速度。

MiniMax 与GPT-4o 同一代模型能力进行对比发现,新一代模型处理 10 万 token 时效率可提升 2-3 倍,并且随着长度越长,提升越明显。相比于通用 Transformer 架构,在 128K 的序列长度下,新架构成本减少 90% 以上。

“不管是做 MoE、Linear attention 还是其他的,本质上是让同样的效果模型变得更快,快才意味着同样的算力可以做得更好,这是我们最底层的研发思路。”闫俊杰说道。

“从实际应用上,就像我们肯定不希望星野的 NPC 只能记住最近 8000 字的内容,这对用户的体验损伤比较大,如果能 Scale 到 8 万字、80 万字、800 万肯定能做出更不一样的产品。” MiniMax 技术总监韩景涛补充道。

“产品不赚钱是技术不够好”

目前,MiniMax 在国内 C 端的主打产品是星野和海螺 AI。

“当一个产品没人用或者不赚钱的时候,肯定不能怪用户,大部分时候只能怪自己的技术做得不够好,或者产品做得不够好。”闫俊杰说道。

因此,在闫俊杰看来,像基于 GPT-4 的 GPT Store 跑不通的根本原因,不是因为 Agent 的框架写得不够好,是因为模型本身不够好。“当前的模型没有很长的记忆、理解不了特别复杂的指令就会这样。”

现在所有的模型错误率都是 20% 的量级,闫俊杰认为,真正发生变革的是有一个模型可以把错误率降低到个位数,这会让很多复杂的任务从“不可以”变得“可以”。

“当技术做得不好的时候,所有东西都是问题,当技术做好了,似乎所有问题都被掩盖了。技术是一家科技公司的最核心的要素,我觉得我花了两年才意识到这件事。”闫俊杰说道。

在闫俊杰看来,做技术是一件非常奢侈的事,这件事甚至只有创业的时候才会理解,因为做技术,可能会失败、投入也很大。当一个东西很奢侈时,很多时候就会想要不要走点捷径,比如不做技术,先把产品提升好等。

“实践经验证明,走捷径的时候会被打脸。”闫俊杰笑道。

目前,MiniMax 的商业化基本上分成两种模式:一是面向企业的开放平台,现在已经有两千多家的客户,包括互联网公司、传统企业等;二是在自有产品里设立广告机制进行变现。

“现阶段,最重要的还不是商业化,是真正地对技术到达广泛可用的程度。”闫俊杰表示。

对于国内市场,MiniMax 希望打造偏工具类的产品,比如会给海螺 AI 不断打磨出新的功能,直到产生了很强的用户粘性。“粘性构造起来后,我们才会考虑 ROI 和 Retention。这个飞轮转起来了,我们才会进行投放。”MiniMax 国际业务总经理盛静远表示。

盛静远认为,这个 ROI 会有转起来的一天,但不是今天的产品形态。“作为一个普通消费者,今天的产品形态没有任何的忠诚度可言。它一收费我就可以换到另外一个产品,这个模式是不成立的。”

但海外市场不太一样。海外企业更愿意付费,因此把技术做得细腻很重要。“对我们来讲现在技术完全到位了,更多是公司的精力和资源,以及怎么变现的问题。海外市场有一套自己的打法,会相对地比较 straightforward,变现也更快。”

实际上,MiniMax 海外产品 Talkie 名气可能比国内产品更高。在全球知名风投机构 a16z 最新发布的《Top100 消费级生成式 AI 应用》移动应用榜单中,Talkie 位列 22 位。

盛静远总结道,任何伟大的 2 C 产品都是基于人性的深入思考,另外则要考虑 AI 在高容错率的情况下可以做什么,并变成大众喜闻乐见的产品。

结束语

大模型领域的竞争依然在继续。闫俊杰表现得比较淡然,“这就是一个发展的客观规律,作为一家创业公司,如果我们在竞争中打不赢,那我们就应该被淘汰,其实也没有其他的选择。”

在与大厂的竞争中,闫俊杰认为,要赢就要更快地看清非常底层的东西,“大公司开始跟你竞争时,就会意识到有些东西是没用的,因为那些东西大厂能做得比你强千百倍。我们能做的就是无限放大能让我们变强的事情:一是提升技术;二是跟用户共创,这两点非常关键的判断是需要长期积累的。”

而对于国内的大模型价格战,闫俊杰认为确实非常大地提高了模型的调用量,本来认为大模型很贵的公司,包括很多传统的企业开始愿意使用大模型,因为成本低对出错的容忍度也会高一些。“正是激烈的竞争,推动了大家必须得把模型做好。一定阶段之后,大家会发现自己的模型在海外也有竞争力,比如东南亚等,至少目前已经在非英语国家的语种上跟 GPT 不相上下。”

“我们看到乐观的一面,国内大模型的使用量确实在显著地增长,并且中国的模型在海外确实越来越具有竞争力,我觉得这是两个积极的变化。”闫俊杰说道。

 内容推荐

2024年8月18-19日,AICon 全球人工智能开发与应用大会·上海站成功举办,汇聚超过60位大模型行业先锋,全方位剖析大模型训练与推理机制、多模态融合、智能体Agent前沿进展、检索增强(RAG)生成策略、端侧模型优化与应用等热点内容。经过嘉宾授权,「AI前线」为你独家整理了一份演讲PPT合集,不容错过。关注「AI前线」,回复关键词「PPT」免费获取。

 报告推荐

大模型「大脑」足够聪明到支撑 AI Agent 落地了吗?其他模块能力现状如何?理想中的智能体和现阶段有哪些差距?AI Agent 产品形态有何不同?数据分析、营销、教育、金融、文娱游戏等 AI Agent 应用现状如何?有哪些典型案例了吗?AI Agent 未来还将如何发展?

以上问题的回答尽在《中国AI Agent应用研究报告 2024》。


今日荐文





图片
你也「在看」吗?👇

解决大规模视频数据集训练难题,通过高效的训练算法和分布式计算技术,使模型能够处理海量的视频数据。

探索神经网络架构创新,例如采用残差连接、注意力机制等结构,加强模型特征提取能力。

预训练模型的运用,通过利用预训练模型的知识和结构,为视频生成模型提供良好的基础,加速训练。

提升视频生成质量,利用先进的生成式网络和注意力机制,模型可以生成逼真、流畅的高质量视频。

通过采用分布式训练技术,将训练任务分发到多个计算节点上,提高模型训练速度。

模型轻量化,通过优化算法和网络结构,降低视频生成模型的计算资源需求,使其可以在各种设备上运行。

优化算法,例如使用自适应学习率、梯度裁剪等技术,提升模型收敛效率。

实现跨模态内容生成,模型不仅可以生成视频,还可以与文本、图像等其他模态内容进行交互,创造更加丰富的多模态体验。

降低视频制作门槛,视频生成模型使视频制作不再局限于专业人士,普通用户也可以轻松创作出令人印象深刻的视频。

提高内容创作的效率,普通用户可以使用视频生成模型快速生成高质量的视频内容,无需专业视频制作技能。

个性化视频体验,用户可以通过模型定制符合自己喜好和需求的视频内容,享受更加沉浸式的观看体验。

教育和知识普及,视频生成模型可以辅助教育工作者创建生动形象的教学视频,有利于知识的传播和理解。