PolaFormer:极性感知线性注意力,高效视觉Transformer新突破
|
|
9
|
6
|
2025 年3 月 10 日
|
中国团队首获FPGA最佳论文:FlightVGM在FPGA上高效推理视频生成模型
|
|
9
|
11
|
2025 年3 月 10 日
|
专家链(CoE):大幅提升LLM信息处理能力的新架构
|
|
9
|
7
|
2025 年3 月 10 日
|
Colossal-AI开源工具箱:低成本微调DeepSeek V3+R1,打造高质量私有模型
|
|
9
|
17
|
2025 年3 月 10 日
|
Ilya Sutskever创办的SSI公司估值或超300亿美元
|
|
9
|
0
|
2025 年3 月 10 日
|
Ola-7B:腾讯、清华和NTU联合打造,性能比肩专业模型的全模态AI
|
|
9
|
9
|
2025 年3 月 10 日
|
OpenAI 前 CTO 等核心成员创立 Thinking Machines Lab,打造更强大、开放的 AI
|
|
9
|
4
|
2025 年3 月 10 日
|
X-Dyna:让照片中的人物和背景都动起来!
|
|
9
|
32
|
2025 年3 月 9 日
|
图像直线识别:霍夫变换详解
|
|
9
|
4
|
2025 年3 月 9 日
|
字节开源ByteQC:GPU加速大规模量子化学计算,助力材料、制药和催化领域研究
|
|
9
|
8
|
2025 年3 月 9 日
|
无需重新训练!MHA2MLA 助力任意大模型轻松迁移至 DeepSeek 架构
|
|
9
|
4
|
2025 年3 月 9 日
|
AAAI 2025杰出论文奖公布,南大周志华团队研究获殊荣
|
|
9
|
6
|
2025 年3 月 9 日
|
国内外高校及企业AI相关职位招聘汇总
|
|
9
|
9
|
2025 年3 月 9 日
|
EvalPlanner:双阶段LLM评估框架,提升评估系统性和可靠性
|
|
9
|
3
|
2025 年3 月 9 日
|
北大开源多轮交互式商品检索模型MAI及数据集FashionMT
|
|
9
|
6
|
2025 年3 月 9 日
|
Deepseek V3/R1 核心技术与 RAG 前沿进展
|
|
9
|
6
|
2025 年3 月 9 日
|
DeepSeek大模型赋能政务系统:效率提升与挑战并存
|
|
9
|
4
|
2025 年3 月 9 日
|
2024 IBM 博士生奖学金揭晓,多位华人 AI 研究者入选
|
|
9
|
7
|
2025 年3 月 9 日
|
苹果提出蒸馏扩展定律:预测蒸馏模型性能,优化资源分配
|
|
9
|
3
|
2025 年3 月 9 日
|
智谱AI获10亿元融资,杭州国资加码布局大模型
|
|
9
|
2
|
2025 年3 月 9 日
|
DeepSeek提出原生稀疏注意力NSA:实现超快长上下文训练和推理
|
|
9
|
5
|
2025 年3 月 9 日
|
JetBrains 推出 AI 编码智能体 Junie,但仍需努力
|
|
9
|
19
|
2025 年3 月 9 日
|
Perplexity 推出免费深度研究工具Deep Research,挑战OpenAI
|
|
9
|
4
|
2025 年3 月 9 日
|
GRPO算法从零实现指南:基于Qwen模型的分布式强化学习
|
|
9
|
167
|
2025 年3 月 9 日
|
多LLM协作,高效摘要长文本
|
|
9
|
1
|
2025 年3 月 9 日
|
微信灰度测试接入DeepSeek R1 AI搜索功能
|
|
9
|
1
|
2025 年3 月 9 日
|
WarriorCoder:从专家对战中学习,增强代码大模型性能
|
|
9
|
3
|
2025 年3 月 9 日
|
CATCH:一种基于频段通道感知的多变量时间序列异常检测框架
|
|
9
|
30
|
2025 年3 月 9 日
|
知识蒸馏技术详解:如何利用软标签压缩模型
|
|
9
|
11
|
2025 年3 月 9 日
|
Liquid:统一多模态生成框架,让大语言模型原生掌握视觉能力
|
|
9
|
2
|
2025 年3 月 9 日
|