大模型背后的英雄:AI Infra 工程师实战经验分享直播预告

AI前线直播预告:大模型Infra工程师实战经验分享,揭秘模型高效运行背后的工程细节与挑战!

原文标题:看不见的底座:大模型 Infra 工程师的实战日常 | 直播预告

原文作者:AI前线

冷月清谈:

AI前线将于6月16日晚8点推出直播节目,主题为“看不见的底座:大模型 Infra 工程师的实战日常”。本次直播邀请了来自华为、蚂蚁集团和 SGLang 开源项目的资深AI Infra工程师,他们将分享大模型运行背后那些不为人知的工程细节,包括日常遇到的真实需求与故障类型、训练/推理流程中最容易出错的环节,以及开源 Infra 项目在推进过程中除了技术之外需要考虑的因素。此外,还会探讨国产卡适配训练/推理过程中的实际体验与挑战。欢迎预约观看,并在文末留言提问。

怜星夜思:

1、大模型训练/推理过程中,除了算力,还有哪些容易被忽视但至关重要的因素?
2、在国产卡适配大模型训练/推理过程中,你认为最大的挑战是什么?
3、如果你是 SGLang 这样的开源 Infra 项目的核心开发者,你认为在技术之外,还需要关注哪些方面才能更好地推进项目?

原文内容

大模型能跑起来、跑得好,背后有哪些看不见的工程细节?三位分别来自华为、蚂蚁集团与 SGLang 开源项目的 AI Infra 从业者 将分享他们的观察与体验。扫码预约直播,不见不散!

直播介绍
直播时间

6 月 16 日 20:00~21:30

直播主题

看不见的底座:大模型 Infra 工程师的实战日常

直播嘉宾

主持人:ZOMI 酱  华为 / 昇腾技术专家

嘉宾

  • 马介悦 蚂蚁集团 / 高级专家

  • 尹良升 SGLang 核心开发者

直播亮点
  • Infra 工程师日常遇到的真实需求与故障类型

  • 训练 / 推理流程中最常出错的环节有哪些

  • 开源 Infra 项目的推进难点:技术之外还要兼顾什么

  • 国产卡适配训练 / 推理过程中的实际体验与挑战

如何看直播?

扫描下图海报【二维码】,或戳直播预约按钮,预约 AI 前线视频号直播。👇

如何向讲师提问?

文末留言写下问题,讲师会在直播中为你解答。

除了算力,数据质量和处理流程绝对是关键!数据清洗、标注的准确性直接影响模型的效果。另外,模型的可解释性也很重要,特别是在金融、医疗等领域,知道模型为什么做出这个决策至关重要。我感觉数据、算法、算力,一个都不能少。

楼上说的有道理啊,现在用国产卡,遇到问题百度都搜不到,还得自己啃文档、看源码,太难了!文档质量也是需要提升的一点。

开源项目要发展壮大,社区运营是关键!需要积极和用户互动,收集他们的反馈,及时解决他们的问题。另外,要积极参与各种技术会议和活动,提高项目的知名度。

当然是成本啊!光有算力还不行,还得考虑怎么用最低的成本训练出最好的模型。模型压缩、量化、剪枝这些技术都是为了降低成本。所以说,成本控制也是 Infra 需要关注的重点,钞能力也是能力的一种。

我觉得是人才!会用国产卡,并且能把国产卡的性能发挥到极致的人才太少了。国内的AI人才培养还不够重视国产硬件,大家都习惯用英伟达的卡,用国产卡的人太少了。

我觉得商业模式也很重要。开源项目不能光靠情怀,需要有可持续的商业模式才能长期发展。可以考虑提供商业支持、企业定制等服务。

从我个人经验来看,最大的挑战还是生态问题。很多主流的深度学习框架和库,对国产卡的优化还不够,需要做很多适配工作。另外,社区支持也很重要,遇到问题能找到人交流解决很重要。

法律风险要重视!开源协议的选择、代码的版权问题等等,都需要谨慎处理。避免潜在的法律纠纷。

我认为是兼容性问题。国产卡的硬件架构和指令集可能和国外的主流卡不太一样,需要针对性地进行优化。另外,驱动程序的稳定性也很重要,稳定性是所有事情的前提。

感觉大家说的都很有道理,我补充一点:团队协作!大模型项目往往涉及多个团队,数据团队、算法团队、工程团队等等,如何让他们高效协作,减少沟通成本,也是一个很大的挑战。沟通效率也是生产力!