SGLang 上海 Meetup:前沿技术实践一览

SGLang 上海 Meetup 聚焦 LLM 系统优化与落地,探讨前沿技术实践,共话智能体时代新可能。

原文标题:来这场沙龙,一览SGLang X 超长上下文扩展、RL后训练框架、扩散语言模型等前沿技术实践

原文作者:机器之心

冷月清谈:

本次 Meetup 由 SGLang 社区、机器之心、张江孵化器联合举办,聚焦 LLM 系统优化与技术落地。活动邀请了 SGLang 核心开发者张柏舟、Omni-infer 核心开发者郑锦焕、Slime 核心开发者谢承兴、SGLang 和 Mooncake 核心开发者蔡尚铭以及 SGLang Contributor 李泽寰等嘉宾,分享他们在 SGLang 技术路线、超长上下文扩展、RL 后训练框架、扩散语言模型 等方面的实践经验。活动旨在促进开发者交流,共同探索 LLM 在“能办事”的智能体时代的新可能。

怜星夜思:

1、SGLang 作为一个新兴的语言模型开发框架,它有哪些独特的优势和不足?与其他类似的框架相比,SGLang 的发展前景如何?
2、活动提到了超长上下文扩展,这对于 LLM 的实际应用有哪些重要意义?在扩展上下文长度时,会面临哪些技术挑战?
3、活动嘉宾背景多样,既有来自学术界,也有来自工业界。你认为学术界和工业界在 LLM 的研究和应用上,应该如何更好地合作,才能加速人工智能的发展?

原文内容


在当前人工智能从“聊天”范式加速向“能办事”的智能体时代演进的关键节点,LLM 系统优化与技术落地的实践探索,更需要开发者们的深度联结与经验共创。


基于此,由 SGLang 社区、机器之心、张江孵化器联合举办线下 Meetup,让屏幕前的贡献者走到台前,让幕后优化者分享实战心法。2 月 6日下午,「SGLang 上海 Meetup」在上海浦东·纳贤路 800 号 1 层举办。


本次 Meetup 将围绕 SGLang 技术路线、超长上下文扩展、RL 后训练框架、扩散语言模型探索等议题展开深度解析,并设有自由交流环节。诚邀开发者与研究同仁共赴现场,探讨 LLM 系统优化与落地实践的新可能。


最新日程


最新日程正式揭晓,扫描下方报名二维码,锁定您的专属入场资格。



活动嘉宾介绍


张柏舟:SGLang核心开发成员

个人简介:SGLang 核心开发成员,主要负责开源大语言模型在不同 Cuda 硬件(Hopper, Blackwell)上的支持和优化。本科毕业于北京大学信息科学技术学院智能科学专业,硕士毕业于加州大学圣地亚哥分校(UCSD)计算机专业,曾于英伟达、百度等公司实习。


郑锦焕:Omni-infer核心开发者

个人简介:华为技术专家,omni-infer 社区核心贡献者,具备多年软件开发与系统设计经验,长期深耕高性能系统与工程落地。熟悉网络协议栈、分布式系统调度与资源管理、服务治理与性能诊断等。当前主要从事推理系统的方案设计与性能优化,围绕负载均衡、算子融合、KV Cache、并行策略、通信开销与端到端链路调优等方向提升吞吐、时延与稳定性,并参与推动相关能力与社区共建。


谢承兴:清华大学博士生、 Slime 核心开发者

个人简介:清华大学一年级博士生,是 slime 强化学习训练框架的核心开发者之一,具备一定的强化学习系统构建与 Agentic RL 训练经验。其研究方向聚焦于大语言模型强化学习、强化学习系统基础设施(RL Infra),以及如何提升大语言模型在真实世界复杂任务中的推理与决策能力。个人主页:https://yitianlian.github.io/


蔡尚铭:SGLang 核心开发者、Mooncake 核心开发者

个人简介:阿里云飞天实验室研究员与技术专家,清华大学计算机科学与技术系博士。主要研究方向包括:高性能推理系统、大语言模型、分布式机器学习训练等。他是 SGLang 社区 PD 分离、流水线并行等特性的核心 contributor 和 maintainer,同时也是 Mooncake 社区的核心成员与 maintainer。


李泽寰:蚂蚁集团系统工程师、SGLang Contributor

个人简介:李泽寰毕业于上海交通大学,专注于 AI Infra 领域,从系统、引擎与模型层的综合视角进行优化。作为 SGLang dLLM 的核心贡献者,他用该框架提升了 dLLM 模型的评测与强化学习效率。目前,蚂蚁集团正基于此框架构建对外服务的低延迟推理能力。另外,作为机密计算领域开源项目 Occlum 的核心贡献者,实现了异步网络框架、运行时及 SGX-SDK 动态内存管理等关键模块,并推动 Spark on Occlum 项目落地,拥有扎实的系统开发经验。


扫码锁定线下席位



您在报名期间有任何不清楚的地方,请随时与活动小助手联系:136 6148 9516(同微信)。



© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:liyazhou@jiqizhixin.com

别光想着应用层面,超长上下文扩展对模型本身也是一种进化。想想人类的学习过程,不也是通过不断积累知识、构建长程记忆来实现的吗?也许,有了超长上下文,模型才能真正理解“因果关系”、“长期依赖”这些高级概念,而不是像现在这样,只能做一些浅层的模式匹配。

学术界搞理论创新,工业界负责落地实践,这本身就是一种互补。但现在的问题是,很多学术研究离实际应用太远,而工业界又过于追求短期效益。我觉得可以尝试建立更紧密的合作关系,比如共同设立研究项目,或者让学生参与到工业界的实际项目中,这样才能更好地将学术成果转化为生产力。

长文本处理一直是痛点,现在很多方案要么是暴力截断,要么是各种Attention魔改。个人感觉,真正的突破可能需要新的模型架构,或者更高效的索引和检索机制,让模型能够像人一样,快速找到需要的上下文信息,而不是死记硬背所有的内容。

合作?不存在的。学术界抢帽子,工业界抢算力,大家各玩各的。真正有价值的合作,需要双方都有足够的诚意和长远的眼光。不过话说回来,开源社区倒是提供了一个很好的平台,让学术界和工业界可以在平等的环境下交流和协作。

感觉现在很多 paper 为了发而发,各种 trick 堆砌,实际效果提升有限。工业界应该多向学术界抛出实际问题,而不是一味地追求 SOTA。同时,学术界也应该更关注工业界的需求,避免研究方向的偏差。开放数据集和 benchmark 也是关键,让大家站在同一起跑线上。

SGLang 的优势在于它可能更侧重于性能优化和硬件适配,特别是针对不同的 CUDA 硬件。前景的话,如果它能持续优化底层性能,并且保持对最新硬件的支持,应该会在特定领域有竞争力。毕竟现在各种框架层出不穷,最终还是要看谁能真正解决实际问题。

感觉这种meetup分享的信息密度还是太低了,不如直接看源码和benchmark。不过话说回来,现在LLM框架这么多,感觉都在重复造轮子,卷来卷去还是那些东西,希望能看到一些真正创新的方向。

从介绍来看,SGLang 似乎在高性能推理系统方面有一定优势,而且有阿里云飞天实验室背景加持,感觉更偏向工业界应用。但具体还得看它的生态建设和社区活跃度,这决定了它能否吸引更多的开发者加入并持续发展。如果能和 Omni-infer 这样的项目深度合作,感觉想象空间会更大。

超长上下文扩展绝对是提升 LLM ‘能办事’ 能力的关键!想象一下,如果 LLM 能记住并理解你一整本书的内容,那它就能更好地回答你的问题,甚至帮你写书。但挑战也很明显,计算成本会指数级增长,而且模型还可能出现’注意力衰减’的问题,导致无法有效利用长距离的信息。