Transformer 大模型也能做多位数乘法?递归式自我提升或为关键
|
|
9
|
1
|
2025 年3 月 8 日
|
DeepSeek赋能政务:AI数智员工助力政府服务升级
|
|
12
|
3
|
2025 年3 月 8 日
|
微软发布百万量子比特芯片Majorana 1,量子计算迎来里程碑
|
|
9
|
6
|
2025 年3 月 8 日
|
阿里开源320亿参数推理模型QwQ-32B,性能比肩DeepSeek-R1满血版
|
|
9
|
4
|
2025 年3 月 8 日
|
CVPR 2025 ViSCALE研讨会:探索计算机视觉推理扩展律
|
|
9
|
4
|
2025 年3 月 8 日
|
DexTrack:基于轨迹跟踪的通用灵巧机器人操控
|
|
9
|
2
|
2025 年3 月 8 日
|
Anthropic E 轮融资 35 亿美元,估值达 615 亿美元,网友期待 Claude 4
|
|
9
|
0
|
2025 年3 月 8 日
|
ToST:基于统计学的线性注意力机制,革新Transformer效率
|
|
9
|
16
|
2025 年3 月 8 日
|
大型语言模型助力推荐系统去噪:LLaRD框架详解
|
|
9
|
4
|
2025 年3 月 8 日
|
月之暗面开源Muon优化器:算力减半,性能翻倍
|
|
9
|
2
|
2025 年3 月 8 日
|
复旦大学DuMo模型:精准擦除扩散模型风险概念,兼顾安全与生成质量
|
|
9
|
4
|
2025 年3 月 8 日
|
推理模型详解:从o1-mini到DeepSeek-R1的发展历程与技术探究
|
|
9
|
17
|
2025 年3 月 8 日
|
AI时代下的前端开发:进化、融合与坚守
|
|
9
|
56
|
2025 年3 月 8 日
|
免训练视频重打光技术Light-A-Video:渐进式光照融合,一键提升视频质量
|
|
9
|
6
|
2025 年3 月 8 日
|
Figure 发布具身大模型 Helix,赋能人形机器人高效完成复杂任务
|
|
9
|
4
|
2025 年3 月 8 日
|
博士论文解读:循环神经网络在认知和视觉神经科学中的应用
|
|
9
|
8
|
2025 年3 月 8 日
|
2025 WAIC 云帆奖全球招募,共筑 AGI 未来
|
|
9
|
3
|
2025 年3 月 8 日
|
杨植麟团队发布MoBA:LLM长文本处理的利器
|
|
9
|
4
|
2025 年3 月 8 日
|
DeepSeek-R1 在贪吃蛇基准 SnakeBench 上表现优异,逼近 o3-mini
|
|
9
|
3
|
2025 年3 月 8 日
|
CMU博士论文解读:构建通用机器人生成范式
|
|
9
|
0
|
2025 年3 月 8 日
|
医学图像理解:结合图像和文本的力量
|
|
9
|
4
|
2025 年3 月 8 日
|
豆包开源BFS-Prover:更简洁高效的数学推理模型,超越DeepSeek等主流系统
|
|
9
|
4
|
2025 年3 月 8 日
|
7B小模型逻辑推理能力比肩OpenAI大型模型:强化学习新突破
|
|
9
|
9
|
2025 年3 月 8 日
|
DeepSeekMoE:高效的大规模语言模型新架构
|
|
9
|
7
|
2025 年3 月 8 日
|
精准定位过拟合特征:ParShap方法解析
|
|
9
|
1
|
2025 年3 月 8 日
|
DynamicCity:让AI生成的城市“动”起来!突破4D大场景生成技术边界
|
|
9
|
13
|
2025 年3 月 8 日
|
超越Token预测:CoCoMix如何革新Transformer预训练
|
|
9
|
1
|
2025 年3 月 8 日
|
AI 规模化发展新方向:向上、向下和向外扩展
|
|
9
|
6
|
2025 年3 月 8 日
|
2025全球开发者先锋大会:百亿AI项目招标,共话AI未来
|
|
9
|
1
|
2025 年3 月 8 日
|
南大LAMDA携手华为诺亚,斩获EDA顶会DATE 2025最佳论文奖
|
|
9
|
11
|
2025 年3 月 8 日
|