Qwen3 vs Deepseek-R1 数据分析 Agent 性能评测：数势科技 SwiftAgent 率先完成适配

ai-front · 2025 年4 月 30 日 13:11

数势科技 SwiftAgent 测评 Qwen3 和 DeepSeek-R1 在数据分析 Agent 上的性能。Qwen3 在多方面表现出色，尤其 Qwen3-32B 兼具性能与成本优势，利好企业。

原文标题：全网首测！?Qwen3?vs?Deepseek-R1?数据分析哪家强？

原文作者：AI前线

原文链接： http://mp.weixin.qq.com/s?__biz=MzU1NDA4NjU2MA==&mid=2247638481&idx=2&sn=75ebdadedbf2430a82570d32bc2b6679&

冷月清谈：

数势科技 SwiftAgent 率先完成对阿里巴巴新一代通义千问模型 Qwen3 的全面适配，并发布了 Qwen3 与 DeepSeek-R1 的测评报告。报告针对数据分析 Agent 的关键节点，如上下文改写、任务编排、工具调用、数据查询、图表生成和总结反思等方面进行了对比测试。结果表明，Qwen3 在多个方面对比 Qwen2.5 有显著提升，且在某些环节上甚至优于 DeepSeek-R1。尤其 Qwen3-32B 模型表现出色，在性能接近 DeepSeek-R1 的同时，部署成本更低。数势科技的测评还包括数学推理计算能力，DeepSeek-R1 和 Qwen3-235B-A22B 在该方面表现更优。总体而言，Qwen3 的发布对数据分析 Agent 的构建具有极大的促进作用，为企业提供了更高性能、更低成本的智能产品。

怜星夜思：

1、报告里提到Qwen3-32B模型在数据分析任务上表现出色，甚至接近DeepSeek-R1，大家觉得这是否意味着小参数模型在特定领域有机会挑战大模型？未来模型发展方向会是如何？
2、报告提到Qwen3在数学推理计算能力上不如DeepSeek-R1和Qwen3-235B-A22B，但在数据分析中数学能力也很重要，大家认为应该如何弥补这一短板？
3、报告中提到提示词工程、RAG和模型微调是优化Agent效果的三种手段，大家觉得在实际应用中，哪种手段性价比最高，最值得投入？

原文内容

作者 | 李飞

昨天凌晨，阿里巴巴开源新一代通义千问模型 Qwen3，AI Agent 厂商数势科技的数据分析智能体 SwiftAgent 已率先完成全面适配，并发布了 Qwen3 与 DeepSeek-R1 的测评报告，下面是具体评测内容，我们来看看在企业级的数据分析和智能决策场景上，Qwen3 与 DeepSeek-R1 到底有哪些差异？

(声明: 本次测评主要针对 Qwen3-32B 和 Qwen3-235B-A22B, 对比 Qwen2.5-72B 和 R1 效果)

针对数据分析 Data Agent，我们有如下关键节点 (如图 1），分别是改写，任务编排，工具选择和参数解析，工具运行和总结等。其中数据查询工具又涵盖了复杂的能力，例如如何将用户的查询语句解析成对应的语义层要素 (时间，指标，维度，逻辑算子等）。不同节点的准确性对最终结果都会造成较大的影响。

图 1：数据分析 Agent 流程概要

当前在落地的过程中，不同厂商针对其中节点的准确性优化基本都是三种手段，分别是提示词工程、RAG 增强判断和模型微调等。这三种手段的实施成本是递进的，效果也不可控。因此，数势科技一直秉持积极拥抱最先进的开源大模型的原则，践行第一时间适配，以提高 Agent 产品的效果，降低交付中的实施成本。先说结论，在上下文改写、任务编排和工具调用、数据查询、图表生成、总结反思五个方面，Qwen3 对比 Qwen2.5 有极大的效果提升，对比 DeepSeek-R1 模型也不遑多让，甚至在某些环节上还有意外的惊喜。成本上，根据阿里官方的报告，Qwen3 模型在整体部署上成本极大地降低，进一步降低了各个企业部署和使用的门槛。

本次，数势科技的 SwiftAgent 产品针对其中的不同节点，对 Qwen3 大模型进行整体测评，并对比以往模型的效果。

上下文改写

Chat 类产品首先接收的就是用户的输入语句，由于会话通常存在上下文干扰，以及用户的输入往往都是非标准的，因此我们必须对用户当次的输入语句进行改写判断，符合“优质进，优质出”的原则。以下测试我们分别把上下文带入到大模型中进行改写，让大模型判断用户问题的语境并进行改写的判断。

总结：针对 Case1 的语境，不应该进行改写，出乎意料的只有 Qwen3-32B 回答准确；针对 Case2，由于本轮提问的语境是绝对时间，Qwen2.5-72B 会基于上轮时间进行推理，对本轮 Query 进行改写，其他模型则理解语境不会判断成改写。针对 Case3，INV 代表“当日库存量”的缩写，当大模型不理解该术语时，会擅自继承上轮内容并改写本轮 Query，4 个模型均没办法正确回答。

任务编排和工具调用

总结：Qwen2.5-72B 在数据分析任务拆解和工具调用选择上，均落后于其它三个模型。其中，Case2 中我们期望通过子任务的拆解执行提高最终结果生成的准确性，DeepSeek-R1 以及 Qwen3-32B 和 Qwen3-235B-A22B 推理和非推理模式均表现优秀，Qwen2.5-72B 无法成功拆解相应任务，Case3 中，Qwen2.5-72B 在第 5 步任务中无法识别到应该调用归因分析工具，其它三个模型均能做到。可见 Qwen3-32B 做到了成本下降了，效果反而更好了。

数据查询

数据要素解析中，对时间要素的识别往往是较难的，因为时间是带动态更新和逻辑推理特性的。例如：“我行销售额较去年增加多少”是时间的隐性推理，实际表达的时间是“今年”和“去年”。此外还有相对时间和绝对时间理解，以及周的开始和结束时间推理识别等。

总结：在这三种时间难例 Case 下，DeepSeek-R1 以及 Qwen3-32B 和 Qwen3-235B-A22B 推理和非推理模式均领先于 Qwen2.5-72B，其中 Qwen3-32B 的效果已经完全接近 R1 的识别效果。

数据要素解析中，对实体的抽取也是要素匹配的一个前提条件，实体抽取的质量好坏会干扰后面要素匹配的效果，针对以往的难例 case，不同模型的测试情况如下：

总结：DeepSeek-R1 和 Qwen3-32B 在 Case1 和 Case2 的效果优于其他模型，然而 DeepSeek-R1 在 Case3 上漏识别了维度，总体来看，实体语义识别的效果差距不大，反而 Qwen3-32B 的 Dense 模型效果要优于其他模型。

图表生成

本次评测中，我们采用 Echart 图表生成的方式来验证不同模型基于数据的理解后，生成并渲染图表的效果

总结：Qwen72B 对于数据理解和代码生成的能力弱于 Qwen3-32B, Case2 和 Case3 中甚至出现了数据遗漏的现象。此外，Qwen3-32B 在渲染排版上略逊色于 Qwen3-235B-A22B 和 DeepSeek-R1 模型。

总结反思

这里，我们测试了针对生成的错误代码，大模型是否可以结合错误反思并生成准确的代码。

总结：原始代码存在包括【类型错误】、【潜在的空列表错误】、【字符串与整数操作问题】等数据分析中常见的代码问题。经过四个不同模型反思优化后，Qwen2.5-72B 选择直接丢弃不符合数值格式的数据，虽然能够跑通，但并不是数据预处理时的最佳选择，优化了潜在的空列表错误。DeepSeek-R1 对数据进行了强制转换，但传入无法强制转换的类型时，依旧会报错，且并未解决潜在的空列表错误。Qwen3 的两个模型对数据类型做了最符合预期地处理，优先尝试转换为数值，无法强制转换才选择抛弃，但同样并未解决潜在的空列表错误。关于潜在的空列表错误，在二次提示优化后，四个模型均给出优化方案，达到预期。

此外，我们还测了一些其他和数据分析相关的大模型能力，例如数学推理计算能力，我们从网上借鉴了一些数学测试题，先说结论，DeepSeek-R1 模型和 Qwen3-235B-A22B 在数学计算推理能力上要优于另外两种模型，符合 Scale Law 的认知。

具体来说，Case1 中，DeepSeek-R1 模型和 Qwen3-235B-A22B 均回答正确，其他两个模型回答错误。Case2 和 Case3 中所有模型均回答准确。

综上所述，在数据分析 Agent 构建方面，Qwen3 模型的发布对于 Agent 的构建有极大的提升作用。无论是在任务规划、代码生成、数学计算和语义识别等方面，Qwen3 模型都表现较为出色，其中 Qwen3-32B 模型也远优于上一代模型，甚至接近于 DeepSeek-R1 模型，且部署成本更低，消费级显卡即可实现推理自由，对企业使用大模型来说，是重大的利好。

在 Qwen3 模型发布的首日，数势科技 SwiftAgent 率先完成了对 Qwen3 的全面适配，并对 Agent 的中间环节进行了能力升级和创新性功能开发，为企业客户构建 AI 驱动的数据分析和智能决策提供了更高性能、更低成本的智能产品。

活动推荐

AICon 2025 强势来袭，5 月上海站、6 月北京站，双城联动，全览 AI 技术前沿和行业落地。大会聚焦技术与应用深度融合，汇聚 AI Agent、多模态、场景应用、大模型架构创新、智能数据基建、AI 产品设计和出海策略等话题。即刻扫码购票，一同探索 AI 应用边界！

今日荐文

你也「在看」吗？👇

Glyph270t · 2025 年5 月 2 日 07:38

楼上说的有道理，我觉得这反映了一个趋势：大模型不一定适合所有场景。小模型在推理速度、部署成本等方面有优势，如果能结合领域知识进行针对性训练，效果可能更好。未来可能出现“通用大模型+领域小模型”的混合模式。

不过，也不能忽视大模型的潜力。毕竟，更大的模型通常具有更强的表达能力，在处理复杂问题时可能更具优势。关键在于如何找到最佳的平衡点。

FrostyPenguin271 · 2025 年5 月 3 日 12:11

其实我觉得“巧妇难为无米之炊”，数据的质量才是最重要的，数据量少用什么模型都没用，另外Qwen3的训练方式我们并不清楚，会不会使用了某些tricks，比如数据增强等，使得小模型也能有大模型的效果，我个人感觉小模型挑战大模型还是比较困难的。

IronKnight238 · 2025 年5 月 4 日 06:42

确实，Qwen3-32B的表现让人眼前一亮。这说明在特定领域，精心优化的小参数模型完全有可能媲美甚至超越大模型。未来的模型发展方向，我认为会更加注重效率和专业化，而不是单纯追求参数规模的扩大。各个厂商可能会针对特定应用场景，推出更多定制化的小而精的模型。

从技术角度来看，这可能涉及到模型架构的创新，例如更高效的注意力机制、知识蒸馏等。同时，高质量的领域数据也至关重要，可以帮助小模型更好地学习和泛化。

GreenTurtle317 · 2025 年5 月 4 日 07:10

别整那些花里胡哨的，直接把数据清洗干净，比啥都强！现在很多模型不行，不是模型本身的问题，是喂给它的数据太脏了。先把数据搞利索了，再考虑用啥技巧。

CoastalHeron339 · 2025 年5 月 4 日 16:39

直接上公式！把一些常用的数据分析公式直接喂给模型，让它背下来。虽然看起来有点笨，但说不定效果不错。或者搞个“数学公式速查表”，模型遇到问题就去查表，哈哈！

VioletRaven051 · 2025 年5 月 4 日 18:48

从实际应用角度考虑，我觉得可以采取“人机协作”的方式。对于需要复杂数学推理的场景，可以让人工专家参与进来，辅助模型进行分析和决策。毕竟，AI 的目标不是取代人类，而是增强人类的能力。

另外，还可以考虑使用一些专门的数学库或者框架，例如 NumPy、SciPy 等，提高数据处理和计算的效率。

GlowingStarfish420 · 2025 年5 月 5 日 19:43

数学能力确实是数据分析的基础。个人觉得可以从以下几个方面入手：

1. 数据增强： 针对数学推理相关的任务，可以增加更多的训练数据，尤其是一些复杂的数学问题和公式。
2. 模型微调： 利用专门的数学数据集对Qwen3进行微调，提升其数学推理能力。
3. 工具调用： 结合外部的数学计算工具，例如 Wolfram Alpha，将复杂的计算任务交给外部工具处理，Qwen3 只负责任务调度和结果整合。
4. 知识蒸馏： 尝试使用 DeepSeek-R1 或 Qwen3-235B-A22B 作为教师模型，将它们的数学知识蒸馏到 Qwen3 中。

GentleBreeze816 · 2025 年5 月 7 日 06:31

这三种手段我都尝试过，个人感觉提示词工程的性价比最高。它不需要大量的计算资源和数据，只需要不断地尝试和优化提示语，就能取得不错的效果。

RAG 也不错，可以有效地利用外部知识来增强模型的能力。但是，RAG 的效果很大程度上取决于知识库的质量。如果知识库不够准确、完整，反而会降低模型的效果。

模型微调的效果最好，但是成本也最高，需要大量的标注数据和计算资源。而且，微调后的模型可能会过拟合，泛化能力下降。

SilentWhale233 · 2025 年5 月 7 日 11:48

我觉得应该根据具体的应用场景来选择。如果只是解决一些简单的问题，提示词工程就足够了。如果需要利用大量的外部知识，RAG 是一个不错的选择。如果需要解决一些非常专业的问题，模型微调可能更适合。

另外，还可以将这三种手段结合起来使用。例如，先使用提示词工程来引导模型生成初步的结果，然后使用 RAG 来补充相关知识，最后使用模型微调来优化模型。