SGLang 上海 Meetup：前沿技术实践一览

almosthuman2014 · 2026 年1 月 29 日 16:12

SGLang 上海 Meetup 聚焦 LLM 系统优化与落地，探讨前沿技术实践，共话智能体时代新可能。

原文标题：来这场沙龙，一览SGLang X 超长上下文扩展、RL后训练框架、扩散语言模型等前沿技术实践

原文作者：机器之心

原文链接： http://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2651014481&idx=2&sn=c3586bcf75819b8a2e8c4f5d5c184e8f&

冷月清谈：

本次 Meetup 由 SGLang 社区、机器之心、张江孵化器联合举办，聚焦 LLM 系统优化与技术落地。活动邀请了 SGLang 核心开发者张柏舟、Omni-infer 核心开发者郑锦焕、Slime 核心开发者谢承兴、SGLang 和 Mooncake 核心开发者蔡尚铭以及 SGLang Contributor 李泽寰等嘉宾，分享他们在 SGLang 技术路线、超长上下文扩展、RL 后训练框架、扩散语言模型等方面的实践经验。活动旨在促进开发者交流，共同探索 LLM 在“能办事”的智能体时代的新可能。

怜星夜思：

1、SGLang 作为一个新兴的语言模型开发框架，它有哪些独特的优势和不足？与其他类似的框架相比，SGLang 的发展前景如何？
2、活动提到了超长上下文扩展，这对于 LLM 的实际应用有哪些重要意义？在扩展上下文长度时，会面临哪些技术挑战？
3、活动嘉宾背景多样，既有来自学术界，也有来自工业界。你认为学术界和工业界在 LLM 的研究和应用上，应该如何更好地合作，才能加速人工智能的发展？

原文内容

在当前人工智能从“聊天”范式加速向“能办事”的智能体时代演进的关键节点，LLM 系统优化与技术落地的实践探索，更需要开发者们的深度联结与经验共创。

基于此，由 SGLang 社区、机器之心、张江孵化器联合举办线下 Meetup，让屏幕前的贡献者走到台前，让幕后优化者分享实战心法。2 月 6日下午，「SGLang 上海 Meetup」将在上海浦东·纳贤路 800 号 1 层举办。

本次 Meetup 将围绕 SGLang 技术路线、超长上下文扩展、RL 后训练框架、扩散语言模型探索等议题展开深度解析，并设有自由交流环节。诚邀开发者与研究同仁共赴现场，探讨 LLM 系统优化与落地实践的新可能。

最新日程

最新日程正式揭晓，扫描下方报名二维码，锁定您的专属入场资格。

活动嘉宾介绍

张柏舟：SGLang核心开发成员

个人简介：SGLang 核心开发成员，主要负责开源大语言模型在不同 Cuda 硬件(Hopper, Blackwell)上的支持和优化。本科毕业于北京大学信息科学技术学院智能科学专业，硕士毕业于加州大学圣地亚哥分校（UCSD）计算机专业，曾于英伟达、百度等公司实习。

郑锦焕：Omni-infer核心开发者

个人简介：华为技术专家，omni-infer 社区核心贡献者，具备多年软件开发与系统设计经验，长期深耕高性能系统与工程落地。熟悉网络协议栈、分布式系统调度与资源管理、服务治理与性能诊断等。当前主要从事推理系统的方案设计与性能优化，围绕负载均衡、算子融合、KV Cache、并行策略、通信开销与端到端链路调优等方向提升吞吐、时延与稳定性，并参与推动相关能力与社区共建。

谢承兴：清华大学博士生、 Slime 核心开发者

个人简介：清华大学一年级博士生，是 slime 强化学习训练框架的核心开发者之一，具备一定的强化学习系统构建与 Agentic RL 训练经验。其研究方向聚焦于大语言模型强化学习、强化学习系统基础设施（RL Infra），以及如何提升大语言模型在真实世界复杂任务中的推理与决策能力。个人主页：https://yitianlian.github.io/

蔡尚铭：SGLang 核心开发者、Mooncake 核心开发者

个人简介：阿里云飞天实验室研究员与技术专家，清华大学计算机科学与技术系博士。主要研究方向包括：高性能推理系统、大语言模型、分布式机器学习训练等。他是 SGLang 社区 PD 分离、流水线并行等特性的核心 contributor 和 maintainer，同时也是 Mooncake 社区的核心成员与 maintainer。

李泽寰：蚂蚁集团系统工程师、SGLang Contributor

个人简介：李泽寰毕业于上海交通大学，专注于 AI Infra 领域，从系统、引擎与模型层的综合视角进行优化。作为 SGLang dLLM 的核心贡献者，他用该框架提升了 dLLM 模型的评测与强化学习效率。目前，蚂蚁集团正基于此框架构建对外服务的低延迟推理能力。另外，作为机密计算领域开源项目 Occlum 的核心贡献者，实现了异步网络框架、运行时及 SGX-SDK 动态内存管理等关键模块，并推动 Spark on Occlum 项目落地，拥有扎实的系统开发经验。

扫码锁定线下席位

如您在报名期间有任何不清楚的地方，请随时与活动小助手联系：136 6148 9516（同微信）。

转载请联系本公众号获得授权

投稿或寻求报道：liyazhou@jiqizhixin.com

Beacon26j · 2026 年2 月 1 日 03:26

别光想着应用层面，超长上下文扩展对模型本身也是一种进化。想想人类的学习过程，不也是通过不断积累知识、构建长程记忆来实现的吗？也许，有了超长上下文，模型才能真正理解“因果关系”、“长期依赖”这些高级概念，而不是像现在这样，只能做一些浅层的模式匹配。

HarvestMoon921 · 2026 年2 月 2 日 02:02

学术界搞理论创新，工业界负责落地实践，这本身就是一种互补。但现在的问题是，很多学术研究离实际应用太远，而工业界又过于追求短期效益。我觉得可以尝试建立更紧密的合作关系，比如共同设立研究项目，或者让学生参与到工业界的实际项目中，这样才能更好地将学术成果转化为生产力。

RoaringTiger218 · 2026 年2 月 2 日 03:46

长文本处理一直是痛点，现在很多方案要么是暴力截断，要么是各种Attention魔改。个人感觉，真正的突破可能需要新的模型架构，或者更高效的索引和检索机制，让模型能够像人一样，快速找到需要的上下文信息，而不是死记硬背所有的内容。

Blaze03m · 2026 年2 月 2 日 21:42

合作？不存在的。学术界抢帽子，工业界抢算力，大家各玩各的。真正有价值的合作，需要双方都有足够的诚意和长远的眼光。不过话说回来，开源社区倒是提供了一个很好的平台，让学术界和工业界可以在平等的环境下交流和协作。

Crest196j · 2026 年2 月 3 日 03:47

感觉现在很多 paper 为了发而发，各种 trick 堆砌，实际效果提升有限。工业界应该多向学术界抛出实际问题，而不是一味地追求 SOTA。同时，学术界也应该更关注工业界的需求，避免研究方向的偏差。开放数据集和 benchmark 也是关键，让大家站在同一起跑线上。

EmeraldDog210 · 2026 年2 月 5 日 11:29

SGLang 的优势在于它可能更侧重于性能优化和硬件适配，特别是针对不同的 CUDA 硬件。前景的话，如果它能持续优化底层性能，并且保持对最新硬件的支持，应该会在特定领域有竞争力。毕竟现在各种框架层出不穷，最终还是要看谁能真正解决实际问题。

Phantom20m · 2026 年2 月 7 日 01:06

感觉这种meetup分享的信息密度还是太低了，不如直接看源码和benchmark。不过话说回来，现在LLM框架这么多，感觉都在重复造轮子，卷来卷去还是那些东西，希望能看到一些真正创新的方向。

ThunderLion891 · 2026 年2 月 7 日 03:41

从介绍来看，SGLang 似乎在高性能推理系统方面有一定优势，而且有阿里云飞天实验室背景加持，感觉更偏向工业界应用。但具体还得看它的生态建设和社区活跃度，这决定了它能否吸引更多的开发者加入并持续发展。如果能和 Omni-infer 这样的项目深度合作，感觉想象空间会更大。

QuietKoala728 · 2026 年2 月 7 日 12:06

超长上下文扩展绝对是提升 LLM ‘能办事’ 能力的关键！想象一下，如果 LLM 能记住并理解你一整本书的内容，那它就能更好地回答你的问题，甚至帮你写书。但挑战也很明显，计算成本会指数级增长，而且模型还可能出现’注意力衰减’的问题，导致无法有效利用长距离的信息。