全网首测！ Qwen3 vs Deepseek-R1 数据分析哪家强？

数据分析通义千问 Deepseek-R1

数据猿 | 2025-04-30 00:19

【数据猿导读】今天凌晨，阿里巴巴开源新一代通义千问模型Qwen3，AI Agent厂商数势科技的数据分析智能体SwiftAgent已率先完成全面适配，并发布了Qwen3与DeepSeek-R1的测评报告，下面是具体评测内容，我们来看看在企业级的数据分析和智能决策场景上，Qwen3与DeepSeek-R1到底有哪些差异？...

今天凌晨，阿里巴巴开源新一代通义千问模型Qwen3，AI Agent厂商数势科技的数据分析智能体SwiftAgent已率先完成全面适配，并发布了Qwen3与DeepSeek-R1的测评报告，下面是具体评测内容，我们来看看在企业级的数据分析和智能决策场景上，Qwen3与DeepSeek-R1到底有哪些差异？

数据分析Agent深度测评总结

(声明: 本次测评主要针对Qwen3-32B和Qwen3-235B-A22B,对比Qwen2.5-72B和R1效果)

针对数据分析Data Agent，我们有如下关键节点(如图1），分别是改写，任务编排，工具选择和参数解析，工具运行和总结等。其中数据查询工具又涵盖了复杂的能力，例如如何将用户的查询语句解析成对应的语义层要素(时间，指标，维度，逻辑算子等）。不同节点的准确性对最终结果都会造成较大的影响。

数据分析_通义千问_Deepseek-R1-1

图1：数据分析Agent流程概要

当前在落地的过程中，不同厂商针对其中节点的准确性优化基本都是三种手段，分别是提示词工程、RAG增强判断和模型微调等。这三种手段的实施成本是递进的，效果也不可控。因此，数势科技一直秉持积极拥抱最先进的开源大模型的原则，践行第一时间适配，以提高Agent产品的效果，降低交付中的实施成本。先说结论，在上下文改写、任务编排和工具调用、数据查询、图表生成、总结反思五个方面，Qwen3对比Qwen2.5有极大的效果提升，对比DeepSeek-R1模型也不遑多让，甚至在某些环节上还有意外的惊喜。成本上，根据阿里官方的报告，Qwen3模型在整体部署上成本极大地降低，进一步降低了各个企业部署和使用的门槛。

本次，数势科技的SwiftAgent产品针对其中的不同节点，对Qwen3大模型进行整体测评，并对比以往模型的效果。

数据分析_通义千问_Deepseek-R1-2

（1）上下文改写

Chat类产品首先接收的就是用户的输入语句，由于会话通常存在上下文干扰，以及用户的输入往往都是非标准的，因此我们必须对用户当次的输入语句进行改写判断，符合“优质进，优质出”的原则。以下测试我们分别把上下文带入到大模型中进行改写，让大模型判断用户问题的语境并进行改写的判断。

数据分析_通义千问_Deepseek-R1-3

总结：针对Case1的语境，不应该进行改写，出乎意料的只有Qwen3-32B回答准确；针对Case2，由于本轮提问的语境是绝对时间，Qwen2.5-72B会基于上轮时间进行推理，对本轮Query进行改写，其他模型则理解语境不会判断成改写。针对Case3，INV代表“当日库存量”的缩写，当大模型不理解该术语时，会擅自继承上轮内容并改写本轮Query，4个模型均没办法正确回答。

（2）任务编排和工具调用

数据分析_通义千问_Deepseek-R1-4

总结：Qwen2.5-72B在数据分析任务拆解和工具调用选择上，均落后于其它三个模型。其中，Case2中我们期望通过子任务的拆解执行提高最终结果生成的准确性，DeepSeek-R1以及Qwen3-32B和Qwen3-235B-A22B推理和非推理模式均表现优秀，Qwen2.5-72B无法成功拆解相应任务，Case3中，Qwen2.5-72B在第5步任务中无法识别到应该调用归因分析工具，其它三个模型均能做到。可见Qwen3-32B做到了成本下降了，效果反而更好了。

（3）数据查询

数据要素解析中，对时间要素的识别往往是较难的，因为时间是带动态更新和逻辑推理特性的。例如：“我行销售额较去年增加多少”是时间的隐性推理，实际表达的时间是“今年”和“去年”。此外还有相对时间和绝对时间理解，以及周的开始和结束时间推理识别等。

数据分析_通义千问_Deepseek-R1-5

总结：在这三种时间难例Case下，DeepSeek-R1以及Qwen3-32B和Qwen3-235B-A22B推理和非推理模式均领先于Qwen2.5-72B，其中Qwen3-32B的效果已经完全接近R1的识别效果。

数据要素解析中，对实体的抽取也是要素匹配的一个前提条件，实体抽取的质量好坏会干扰后面要素匹配的效果，针对以往的难例case，不同模型的测试情况如下：

数据分析_通义千问_Deepseek-R1-6 数据分析_通义千问_Deepseek-R1-7

总结：DeepSeek-R1和Qwen3-32B在Case1和Case2的效果优于其他模型，然而DeepSeek-R1在Case3上漏识别了维度，总体来看，实体语义识别的效果差距不大，反而Qwen3-32B的Dense模型效果要优于其他模型。

（4）图表生成

本次评测中，我们采用Echart图表生成的方式来验证不同模型基于数据的理解后，生成并渲染图表的效果

数据分析_通义千问_Deepseek-R1-8 数据分析_通义千问_Deepseek-R1-9

总结：Qwen72B对于数据理解和代码生成的能力弱于Qwen3-32B, Case2和Case3中甚至出现了数据遗漏的现象。此外，Qwen3-32B在渲染排版上略逊色于Qwen3-235B-A22B和DeepSeek-R1模型。

（5）总结反思

这里，我们测试了针对生成的错误代码，大模型是否可以结合错误反思并生成准确的代码。

数据分析_通义千问_Deepseek-R1-10

总结：原始代码存在包括【类型错误】、【潜在的空列表错误】、【字符串与整数操作问题】等数据分析中常见的代码问题。经过四个不同模型反思优化后，Qwen2.5-72B选择直接丢弃不符合数值格式的数据，虽然能够跑通，但并不是数据预处理时的最佳选择，优化了潜在的空列表错误。DeepSeek-R1对数据进行了强制转换，但传入无法强制转换的类型时，依旧会报错，且并未解决潜在的空列表错误。Qwen3的两个模型对数据类型做了最符合预期地处理，优先尝试转换为数值，无法强制转换才选择抛弃，但同样并未解决潜在的空列表错误。关于潜在的空列表错误，在二次提示优化后，四个模型均给出优化方案，达到预期。

此外，我们还测了一些其他和数据分析相关的大模型能力，例如数学推理计算能力，我们从网上借鉴了一些数学测试题，先说结论，DeepSeek-R1模型和Qwen3-235B-A22B在数学计算推理能力上要优于另外两种模型，符合Scale Law的认知。

数据分析_通义千问_Deepseek-R1-11 数据分析_通义千问_Deepseek-R1-12

具体来说，Case1中，DeepSeek-R1模型和Qwen3-235B-A22B均回答正确，其他两个模型回答错误。Case2和Case3中所有模型均回答准确。

综上所述，在数据分析Agent构建方面，Qwen3模型的发布对于Agent的构建有极大的提升作用。无论是在任务规划、代码生成、数学计算和语义识别等方面，Qwen3模型都表现较为出色，其中Qwen3-32B模型也远优于上一代模型，甚至接近于DeepSeek-R1模型，且部署成本更低，消费级显卡即可实现推理自由，对企业使用大模型来说，是重大的利好。

在Qwen3模型发布的首日，数势科技SwiftAgent率先完成了对Qwen3的全面适配，并对Agent的中间环节进行了能力升级和创新性功能开发，为企业客户构建AI驱动的数据分析和智能决策提供了更高性能、更低成本的智能产品。

来源：数据猿

收藏分享

声明：数据猿尊重媒体行业规范，相关内容都会注明来源与作者；转载我们原创内容时，也请务必注明“来源：数据猿”与作者名称，否则将会受到数据猿追责。