LLM 的个性化之路:PREFEVAL 基准测试揭示偏好遵循能力的挑战
|
|
9
|
3
|
2025 年3 月 9 日
|
DeepSeek提出原生可训练稀疏注意力机制NSA,长文本推理性能大幅提升
|
|
9
|
4
|
2025 年3 月 9 日
|
普林斯顿博士论文解读:大规模模型迁移学习与优化理论
|
|
9
|
11
|
2025 年3 月 9 日
|
解密大模型自我改进:斯坦福揭示Qwen与Llama的差异
|
|
9
|
7
|
2025 年3 月 9 日
|
LLM模型坍塌:AI的阿喀琉斯之踵?
|
|
9
|
5
|
2025 年3 月 9 日
|
大型推理模型也会“大脑过载”?研究发现过度思考导致性能下降
|
|
11
|
2
|
2025 年3 月 9 日
|
复旦开源Simple-GRPO:200多行代码低成本复现DeepSeek R1“Aha Moment”
|
|
9
|
24
|
2025 年3 月 9 日
|
DeepSeek-R1 与 Kimi 1.5 强推理模型技术深度解读
|
|
9
|
8
|
2025 年3 月 9 日
|
长推理模型也存在“思考不足”问题?DeepSeek-R1等研究揭示其推理缺陷
|
|
9
|
4
|
2025 年3 月 9 日
|
强化学习新突破:精选数据提升大模型推理能力
|
|
9
|
1
|
2025 年3 月 9 日
|
李飞飞:以人为本,构建负责任的人工智能生态
|
|
9
|
7
|
2025 年3 月 9 日
|
ICLR2025:Vevo,零样本语音模仿新框架,实现音色风格可控转换
|
|
9
|
10
|
2025 年3 月 9 日
|
免费本地部署 DeepSeek-R1 教程:告别服务器繁忙
|
|
9
|
3
|
2025 年3 月 9 日
|
DeepSeek官方发布R1模型推荐设置,提升使用效果
|
|
9
|
7
|
2025 年3 月 9 日
|
AI 赋能 AI:Sakana AI 推出全球首个“AI CUDA 工程师”,PyTorch 性能提升 10-100 倍
|
|
9
|
6
|
2025 年3 月 8 日
|
阿里EMO2:音频驱动AI生成更逼真的人像视频
|
|
9
|
9
|
2025 年3 月 8 日
|
AI智能体加密通话:GibberLink技术实现高效沟通
|
|
9
|
7
|
2025 年3 月 8 日
|
北大开源细粒度多模态大模型Finedefics,显著提升视觉识别能力
|
|
9
|
25
|
2025 年3 月 8 日
|
DeepSeek开源MoE训练、推理EP通信库DeepEP
|
|
9
|
1
|
2025 年3 月 8 日
|
DeepSeek 的秘密武器:GRPO,一种更高效的大语言模型强化学习训练方法
|
|
9
|
21
|
2025 年3 月 8 日
|
AvatarGO:基于文本引导的4D人体-物体交互生成新方法
|
|
9
|
4
|
2025 年3 月 8 日
|
清华TIGER算法:低计算量实现高性能语音分离
|
|
9
|
7
|
2025 年3 月 8 日
|
宽德投资成立智能学习实验室,布局通用人工智能
|
|
9
|
7
|
2025 年3 月 8 日
|
AI 浪潮下,终端硬件如何应对大模型挑战?
|
|
9
|
4
|
2025 年3 月 8 日
|
Transformer 大模型也能做多位数乘法?递归式自我提升或为关键
|
|
9
|
1
|
2025 年3 月 8 日
|
DeepSeek赋能政务:AI数智员工助力政府服务升级
|
|
12
|
3
|
2025 年3 月 8 日
|
微软发布百万量子比特芯片Majorana 1,量子计算迎来里程碑
|
|
9
|
6
|
2025 年3 月 8 日
|
阿里开源320亿参数推理模型QwQ-32B,性能比肩DeepSeek-R1满血版
|
|
9
|
4
|
2025 年3 月 8 日
|
CVPR 2025 ViSCALE研讨会:探索计算机视觉推理扩展律
|
|
9
|
4
|
2025 年3 月 8 日
|
DexTrack:基于轨迹跟踪的通用灵巧机器人操控
|
|
9
|
2
|
2025 年3 月 8 日
|