RL遇大模型,仅限12人的深度技术私享会,探索智能体新范式。
原文标题:RL 圈的夏夜之约!12 人唠嗑局:当强化学习撞上大模型 Agent
原文作者:机器之心
冷月清谈:
活动设置了三大核心议题:强化学习如何与大模型智能体有效结合并发挥最大潜力;在训练与推理效率之间如何权衡选择最合适的策略;以及如何对智能体进行有效的对齐和评估,确保其“听话又能打”。已确认参加的嘉宾包括清华大学的吴翼助理教授、OPPO AI 个性化实验室的周王春澍负责人以及 Pokee AI CEO 朱哲清,分别代表学术、产业和创业领域,确保讨论的广度和深度。
主办方特别邀请学术界的“理论脑洞王”、产业界的“实战老炮儿”和创业圈的“技术弄潮儿”积极参与,期待他们带着最新的研究、落地案例和产品痛点进行真诚的互动与交流,甚至大胆抛出未经证实的新奇想法。加入此次活动不仅能享受独一无二的小众深度交流体验,突破传统会议室的刻板限制,更是一个直接链接行业内“真大佬”的绝佳机会。感兴趣的技术实力派需通过扫描二维码,提供个人身份标签和最想聊的 RL 痛点,名额有限,先到先得。
怜星夜思:
2、“探索新策略 vs 守稳基本盘”,这两种思路在技术发展中总是并存。作为开发者或研究者,你们在日常工作中是如何平衡激进的创新尝试和确保项目稳定可靠落地的?有没有一些成功的案例或“踩坑”经验可以分享?
3、“如何让智能体‘听话又能打’”——这个问题很有趣,但也很严肃。除了技术层面的“对齐”,大家觉得在AI大模型智能体越来越普及的今天,我们还需要从哪些非技术维度去思考、去建立用户或社会对AI的信任?比如法律法规、伦理教育等等?
原文内容
🌟 嘿!RL 圈的潮玩咖看过来!
大模型时代卷起技术狂潮,强化学习(RL)早已不是 “小众玩家”,当它牵手大模型智能体,直接开启「王炸组合」模式!想不想潜入神秘据点,边嗨边聊最 in 的 RL 新范式?7 月 26 日晚,由机器之心主办、东浩兰生支持,作为 WAIC 官方活动之一的「强化学习新范式探索之夜」热力开启,咱们组个「技术吐槽局」+「脑洞开黑局」,等你带「料」赴约~
📅 活动档案速报
主题:强化学习新范式探索之夜:从基础模型到 Agent 的进阶之路
时间:2025 年 7 月 26 日 19:00-21:10(白天逛完 WAIC 直接转场,不耽误你狂卷干货又能嗨聊技术~)
地点:上海世博展览馆附近
规模:仅限 12 位,手慢无!主打一个 “小而精” 的深度贴脸交流,拒绝人海战术,每个人都能疯狂输出!
🤔 我们聊什么?三大硬核议题等你来破局!
1.「强化学习 × 大模型智能体」:CP 组合如何原地封神?
2. 训练推理两难:探索新策略 VS 守稳基本盘,怎么选?
3. 对齐评估大考:如何让智能体 “听话又能打”?
🔥 已锁定的「技术搭子」阵容
▪️ 吴翼 | 清华大学交叉信息研究院助理教授(学术圈「理论脑洞王」本王)
▪️ 周王春澍 | OPPO AI 个性化实验室负责人(产业界「落地操盘手」)
▪️ 朱哲清 | Pokee AI CEO(创业圈「实战先锋」)
🎯 谁该来?—— 喊的就是你!
✅ 学术界「理论脑洞王」:带着你的最新研究、未解之谜来搞学术 battle!
✅ 产业界「实战老炮儿」:捧着你的落地案例、避坑指南来分享江湖经验!
✅ 创业圈「技术弄潮儿」:揣着你的产品痛点、合作需求来链接技术战友!
划重点:拒绝照本宣科!我们要的是「带劲儿的观点碰撞」「敢吐槽的真实交流」,哪怕是未验证的脑洞,也能在这里找到共鸣!
🌟 为什么一定要来?
❶ 小众局才够味:12 人封顶,不做听众;人人都是主角,全程高光!
❷ 场景反内卷:不在会议室正襟危坐,灵感说不定藏在酒杯里~
❸ 链接真大佬:从学术前沿到产业落地全给你配齐了 ,错过后悔一整年!
📩 如何加入这场「技术狂欢」?
扫描下方二维码,告诉我们你的身份标签(学术 / 产业 / 创业)+ 最想聊的 RL 痛点,我们将优先邀请「带料的技术实力派」!
PS:名额有限,手速要快!7 月 10 日 12 点前锁定席位,别让你的技术脑洞憋到过期~
🚀 最后一句掏心窝的话:
RL 的世界不缺论文和报告,缺的是「敢把技术聊成段子」「敢为难题拍桌争论」的同路人。这个夏夜,让我们跳出框架,在轻松氛围里搞点「不一样的技术革命」—— 你,准备好上车了吗?

