DeepSeek开源DeepGEMM:专为FP8设计的简洁高效通用矩阵乘法库
|
|
9
|
2
|
2025 年3 月 6 日
|
DeepSeek开源三种模型训练优化并行策略,提升V3/R1模型训练效率
|
|
9
|
8
|
2025 年3 月 6 日
|
曹妃甸区政府访问清华大数据系统软件国家工程研究中心,共商智能制造发展
|
|
13
|
6
|
2025 年3 月 6 日
|
奥特曼公布OpenAI路线图:GPT-4.5即将发布,GPT-5将整合o3
|
|
9
|
3
|
2025 年3 月 6 日
|
DeepSeek R1:纯强化学习推理模型,开启AI自主学习新时代
|
|
9
|
9
|
2025 年3 月 6 日
|
清华大学研发光谱卷积神经网络芯片,数据吞吐量降低96%
|
|
9
|
0
|
2025 年3 月 6 日
|
aiXcoder-7B:融合深度学习与软件工程,打造更懂代码的大模型
|
|
9
|
15
|
2025 年3 月 6 日
|
深度循环隐式推理:LLM性能扩展新维度
|
|
9
|
4
|
2025 年3 月 6 日
|
DeepSeek-R2即将发布,300行代码实现FP8计算库DeepGEMM性能突破
|
|
9
|
10
|
2025 年3 月 6 日
|
MongoDB 斥资 2.2 亿美元收购 Voyage AI,强化 AI 应用开发能力
|
|
9
|
1
|
2025 年3 月 6 日
|
NIPS 2024:重新思考图像超分辨率中的不平衡问题以实现高效推理
|
|
9
|
10
|
2025 年3 月 6 日
|
ReasonFlux:基于分层强化学习的轻量级大模型推理新范式
|
|
9
|
27
|
2025 年3 月 6 日
|
CVPR 2025 接收率创新低,部分审稿人用 AI 生成审稿意见遭拒稿
|
|
9
|
13
|
2025 年3 月 6 日
|
Stop AI 组织抗议 OpenAI,呼吁停止通用人工智能研发
|
|
9
|
5
|
2025 年3 月 6 日
|
博士论文解读:视觉-语言表示学习如何实现多模态理解
|
|
8
|
16
|
2025 年3 月 6 日
|
火山引擎大幅提升DeepSeek-R1服务能力,TPM高达500万!
|
|
9
|
22
|
2025 年3 月 6 日
|
DeepSeek开源DualPipe、EPLB及性能分析数据,助力大模型训练和推理
|
|
9
|
9
|
2025 年3 月 6 日
|
突破LLM性能瓶颈:Meta记忆层增强Transformer架构详解
|
|
9
|
7
|
2025 年3 月 6 日
|
ICLR2025:VEVO,零样本语音模仿新框架,音色风格轻松掌控
|
|
9
|
11
|
2025 年3 月 6 日
|
阿里开源万相视频生成大模型,登顶VBench
|
|
9
|
7
|
2025 年3 月 6 日
|
xAI工程师因Grok 3排名事件离职,引发对模型能力及公司文化的讨论
|
|
9
|
1
|
2025 年3 月 6 日
|
CCF-阿里妈妈科技袋基金二期发布,聚焦多模态智能研究
|
|
9
|
7
|
2025 年3 月 6 日
|
Meta-CoT:让大型语言模型像人一样思考
|
|
9
|
3
|
2025 年3 月 6 日
|
1.5B参数模型DeepScaleR挑战OpenAI,RL训练新策略只需4500美元
|
|
9
|
5
|
2025 年3 月 6 日
|
HumanUP:让机器人自主起身,适应复杂地形
|
|
9
|
12
|
2025 年3 月 6 日
|
TimeDP:一种基于领域提示的多领域时间序列生成模型
|
|
9
|
19
|
2025 年3 月 6 日
|
MIT新蛋白质语言模型ProtGPS:预测蛋白功能位置,揭示细胞内定位密码
|
|
9
|
8
|
2025 年3 月 6 日
|
NeurIPS 2024:文本引导注意力提升视觉语言模型零样本鲁棒性
|
|
9
|
6
|
2025 年3 月 6 日
|
如何构建有效的LLM系统评估指标体系?
|
|
9
|
7
|
2025 年3 月 6 日
|
零编程基础,借助ChatGPT,他开发APP年入千万美元
|
|
9
|
3
|
2025 年3 月 6 日
|