华为开源盘古大模型:70亿稠密模型与720亿MoE混合专家模型

华为开源盘古大模型!包含70亿稠密模型和720亿MoE模型,加速AI行业应用,拥抱开源生态。

原文标题:刚刚!华为首个开源大模型来了

原文作者:机器之心

冷月清谈:

华为正式宣布开源盘古系列大模型,包括70亿参数的稠密模型以及720亿参数的MoE混合专家模型,并开源了基于昇腾的超大规模MoE模型推理代码。此举被华为视为践行昇腾生态战略的关键举措,旨在推动大模型技术的研究与创新,加速人工智能在各行业的应用。目前,720亿参数MoE模型的权重和推理代码已上线开源平台,70亿参数模型也将在近期上线。华为邀请全球开发者、企业伙伴及研究人员参与使用并反馈意见,共同完善盘古模型。这一举动标志着华为大模型正式加入开源阵营,引发国内AI社区和开发者的高度关注。

怜星夜思:

1、华为此次开源盘古大模型,你认为对国内AI生态会产生哪些影响?例如,是否会加速国内大模型技术的发展?
2、盘古Pro MoE 72B模型采用混合专家模型架构,你觉得这种架构相比于传统的稠密模型有哪些优势和劣势?在实际应用中应该如何选择?
3、华为开源盘古模型,并邀请开发者参与完善,你觉得开发者应该如何参与到盘古模型的共建中?有哪些方面可以做出贡献?

原文内容

左右滑动查看更多图片

终于!华为开源大模型来了。

刚刚,华为正式宣布开源盘古 70 亿参数的稠密模型、盘古 Pro MoE 720 亿参数的混合专家模型(参见机器之心报道: )和基于昇腾的模型推理技术。

开源链接:https://gitcode.com/ascend-tribe

在公告中,华为表示,「此举是践行华为昇腾生态战略的又一关键举措,推动大模型技术的研究与创新发展,加速推进人工智能在千行百业的应用与价值创造。」

具体而言:

1. 盘古 Pro MoE 72B 模型权重、基础推理代码,已正式上线开源平台。
2. 基于昇腾的超大规模 MoE 模型推理代码,已正式上线开源平台。
3. 盘古 7B 相关模型权重与推理代码将于近期上线开源平台。

此外,华为也正在邀请全球开发者、企业伙伴及研究人员下载使用,反馈使用意见,共同完善盘古模型。

近一两个月,华为公开了一系列基于昇腾的大模型技术。但国内 AI 社区与开发者们一直对华为盘古开源模型抱有极大期待。

今天,华为大模型正式加入了开源大军。

对华为开源的新模型,你怎么看?

从技术角度来说,可以关注以下几个方面:一是模型压缩和优化,降低推理成本;二是模型安全,防止恶意攻击;三是模型泛化能力,提高模型的鲁棒性。另外,还可以研究如何将盘古模型应用到不同的行业领域,开发出更多的应用场景。

我认为影响是多方面的。首先,开源降低了门槛,会有更多企业和研究机构参与到大模型的研发和应用中。其次,可以促进国内算力生态的建设,加速昇腾等国产AI芯片的应用。但是,也要看到,开源也可能带来安全风险和知识产权问题,需要行业共同规范。

别的不说,至少以后面试的时候,可以理直气壮地说自己用过国产大模型了!这对国产AI的自信心提升是巨大的。技术发展嘛,肯定少不了弯路,但总比一直被人卡脖子强。

MoE模型的优势在于能够用更少的计算资源处理更大的模型。简单来说,就是让不同的专家处理不同的任务,各司其职,效率更高。但劣势也很明显,训练和推理的复杂度会增加,对硬件要求更高。选择时要根据具体任务和资源情况来权衡。

从学术角度讲,MoE允许模型拥有更大的容量,从而学习到更复杂的知识。但在实际应用中,需要考虑专家之间的负载均衡问题,避免某些专家过载,而另一些专家闲置。此外,MoE模型的稀疏性也可能导致一些优化算法失效,需要针对性地进行调整。

打个比方,稠密模型就像一个全能但效率不高的人,MoE模型就像一个团队,每个人擅长不同的领域。如果你只需要处理一些简单的任务,那全能的人可能更直接。但如果你要完成一项复杂的工程,那肯定需要一个团队协作。所以,看具体情况。

华为开源盘古,绝对是一剂强心针!国内开发者们终于能基于国产框架搞事情了,摆脱了对国外平台的依赖,加速技术突破是肯定的。而且,也能吸引更多人才加入,形成良性循环。

除了技术贡献,还可以从生态建设的角度参与。比如,开发基于盘古模型的工具和应用,撰写相关的教程和博客,组织线下的交流活动等等。让更多人了解和使用盘古模型,才能真正发挥其价值。

我觉得最直接的方式就是下载模型试用,然后积极反馈问题和建议。可以尝试用盘古模型解决自己领域的问题,看看效果如何,有哪些不足。另外,也可以参与到开源社区的建设中,贡献代码、撰写文档、分享经验。