DataAgent:基于Spring AI Alibaba的数据分析智能体深度解析

阿里云开发者分享 DataAgent,一款基于 Spring AI Alibaba 的企业级数据分析智能体,解决传统 Text-to-SQL 的局限,提供更智能的数据分析能力。

原文标题:告别传统 Text-to-SQL:基于 Spring AI Alibaba 的数据分析智能体 DataAgent 深度解析

原文作者:阿里云开发者

冷月清谈:

DataAgent 是一款基于 Spring AI Alibaba 生态构建的企业级数据分析智能体,旨在解决企业在数据分析中遇到的难题,如 SQL 语法复杂、Text-to-SQL 代码逻辑偏差、无法应对复杂场景等。它通过 Spring AI Alibaba Graph & Agent Framework 构建了一套具备自我规划、工具调用、反思纠错及人类干预能力的数据智能体,将确定性流程与模型推理相结合,提供包括人类反馈机制、Prompt 动态配置与自动优化、深度 RAG 与混合检索增强、容器化 Python 执行引擎、流式输出与多轮对话管理、MCP 服务器发布与多模型调度、多数据源接入、报告生成与摘要建议、NL2SQL 转换与语义模型、逻辑外键引擎以及 API Key 与权限管理等核心功能,帮助企业高效地完成数据分析,并最终输出带图表、带逻辑、带深度洞察的行业级报告。

怜星夜思:

1、DataAgent 提到了“人类反馈机制”,这个机制具体在哪些环节介入,才能既保证 AI 的效率,又能避免其犯错? 除了文章中提到的“同意、修改或驳回”,还有没有其他更细粒度的干预方式?
2、DataAgent 提到了多数据源接入的问题,并且能够“纵览全司数据”,那么在实际应用中,如何避免因为数据源的权限问题导致的数据泄露?DataAgent 在数据安全方面还做了哪些考虑?
3、DataAgent 提到了“报告生成与摘要建议”,默认生成 HTML 报告。那么,对于不同类型的数据分析结果,如何选择最合适的报告呈现方式?除了 HTML 和 Markdown,DataAgent 是否考虑支持其他报告格式,例如 PDF、Excel 等?

原文内容

作者:赵雁松,周岩珏,李志强,周永康,刘军

前言:AI 数据分析的“最后一公里”

在企业数字化转型的浪潮中,我们发现很多公司依然面临着“数据深渊”:业务人员想看数据,却受限于复杂的 SQL 语法;开发者虽然尝试了 Text-to-SQL,但生成的代码逻辑常有偏差,同时也无法应对复杂的统计分析、根因定位等场景。

DataAgent 应运而生 这不是简单的指令翻译器,而是我们基于 Spring AI Alibaba 生态构建的一位“虚拟 AI 数据分析师”。它能够像专家一样思考、规划、纠错,并最终输出一份带图表、带逻辑、带深度洞察的行业级报告。

从架构上,DataAgent 是一款基于 Spring AI Alibaba 生态构建的、面向企业级复杂场景的“虚拟 AI 数据分析师”。它通过 Spring AI Alibaba Graph & Agent Framework 构建了一套具备自我规划、工具调用、反思纠错及人类干预能力的数据智能体(Agent),通过 graph、multi-agent 模式将确定性流程与模型推理结合在一起,搭建了一套兼具流程确定性与智能化的数据智能体产品。

一、降维打击:为什么 DataAgent 不止是 Text-to-SQL?

二、视频概览

三、整体架构

四、核心黑科技:DataAgent 是如何解决企业难题的?

我们不只是在写代码,而是在解决企业数据决策中的“深水区”难题。以下是 DataAgent 攻克研发痛点、实现架构突破的几大核心战役。

4.1 人类反馈机制 (Human-In-The-Loop)

  • 遇到问题担心 AI 智商掉线?一个错误的执行计划可能瞬间拖垮生产库,甚至“一步错步步错”。

  • 解决方案

    • 入口:运行时请求参数 humanFeedback=trueGraphController  GraphServiceImpl)。

    • 数据字段:agent.human_review_enabled 用于保存配置,运行时以请求参数为准。

    • 图编排:PlanExecutorNode 检测 HUMAN_REVIEW_ENABLED,转入 HumanFeedbackNode

    • 暂停与恢复:CompiledGraph 使用 interruptBefore(HUMAN_FEEDBACK_NODE),无反馈时进入“等待”,反馈到达后通过 threadId 继续执行。

  • 反馈结果给 AI 穿上约束衣!同意、修改或驳回,都在你一念之间。让 AI 既有速度,又懂规矩。

4.2 Prompt 动态配置与自动优化

  • 遇到问题修改一句 Prompt 就要重启系统?不同模型对 Prompt 脾气不同,一套模板走天下根本行不通。

  • 解决方案

    • 配置入口:/api/prompt-config/*,数据表 user_prompt_config

    • 作用范围:支持按 agentId 绑定或全局配置(agentId 为空)。

    • Prompt 类型:report-generatorplannersql-generatorpython-generatorrewrite

    • 自动优化方式:ReportGeneratorNode 拉取启用配置(按 priority  display_order 排序),

      通过 PromptHelper.buildReportGeneratorPromptWithOptimization 拼接“优化要求”。

    • 当前实现重点:报告生成节点已落地优化;其他类型为预留能力。

  • 获得效果: 像配置 Excel 一样调优 AI。运维人员无需重启,即可让 DataAgent 瞬间从“菜鸟分析师”变身“首席架构师”。

4.3 深度 RAG 与混合检索增强

  • 遇到问题 纯向量检索常召回一堆废话?AI 不认识你的业务缩写?表结构太复杂,AI 搜不到。

  • 解决方案

    • 查询重写:EvidenceRecallNode 将多轮上下文与用户问题组装为检索指令,调用 LLM 生成 standaloneQuery,避免上下文遗漏与歧义。

    • 召回通道:AgentVectorStoreService 作为统一入口,默认走向量检索;开启混合检索后走 AbstractHybridRetrievalStrategy,将“向量召回 + 关键词召回”进行融合。(用户需要提供混合检索实现。当前默认只支持es)

    • 召回过滤:DynamicFilterService 生成基于智能体与知识类型的过滤条件,限制检索范围,避免跨智能体串库。

    • 文档类型:业务知识(business_knowledge)+ 智能体知识(agent_knowledge)两类,按 agentId/type 元数据过滤后合并为 evidence,注入后续 prompt。

    • 关键配置:spring.ai.alibaba.data-agent.vector-store.enable-hybrid-search 控制是否开启混合检索;相似度阈值与 TopK 通过向量库配置项控制(如 top-ksimilarity-threshold)。

    • 输出形式:evidence 文档以标题/摘要/片段形式汇总,作为 EvidenceRecallNode 输出内容进入后续规划于 SQL 生成阶段。

  • 获得效果 AI 拥有了老员工的“直觉”。它能秒懂你的业务逻辑,即便表名全是乱码,它也能精准命中。

4.4 容器化 Python 执行引擎

  • 遇到问题SQL 只能算数,不能预测。想看趋势图、做线性回归?SQL 此时显得苍白无力。

  • 解决方案

    • 代码生成:PythonGenerateNode 根据计划与 SQL 结果生成 Python。

    • 代码执行:PythonExecuteNode 使用 CodePoolExecutorService(Docker/Local/AI 模拟)。

    • 执行配置:spring.ai.alibaba.data-agent.code-executor.*(默认 Docker 镜像 continuumio/anaconda3:latest)。

    • 结果回传:执行结果写回 PYTHON_EXECUTE_NODE_OUTPUTPythonAnalyzeNode 汇总后写入 SQL_EXECUTE_NODE_OUTPUT,用于最终报告。

  • 获得效果 赋予 AI 科学家级的建模能力。不仅能提取数据,还能输出带图表、带算法、带深度预测的高质量产出。

4.5 流式输出 (SSE) 与多轮对话管理

  • 遇到问题分析任务耗时太长,用户盯着屏幕转圈圈,以为系统挂了。

  • 解决方案

    • 流式输出:GraphController SSE + GraphServiceImpl 流式处理。

    • 文本标记:TextType 在流中标记 SQL/JSON/HTML/Markdown,前端据此渲染。

    • 多轮对话:MultiTurnContextManager 记录“用户问题+规划结果”,注入到后续请求。

    • 模式切换:spring.ai.alibaba.data-agent.llm-service-type 支持 STREAM/BLOCK

  • 获得效果极致的交互快感!让用户亲眼看到 AI 正在如何“思考”与“推演”,每一秒都有获得感。

4.6 MCP 服务器发布与多模型调度

  • 遇到问题 DataAgent 虽好,但只能在自研系统用?想集成到 Claude 或 IDE?适配成本高到吓人。

  • 解决方案

    • MCP:McpServerService 提供 NL2SQL 与 Agent 列表工具,使用 Mcp Server Boot Starter。

    • 多模型调度:ModelConfig 配置模型,AiModelRegistry 缓存当前 Chat/Embedding 模型并支持热切换(同一时间每类仅一个激活模型)。

    • 已内置工具:nl2SqlToolCallbacklistAgentsToolCallback

  • 获得效果无处不在的 AI 生产力。它是你的数据中心,也是你办公软件里随叫随到的超强插件。

4.7 多数据源接入

  • 遇到问题企业数据散落在 MySQL、PostgreSQL 等各类库中,跨库取数像是在做“情报搜集”,配置繁琐且标准不一。

  • 解决方案

  • 元数据存储:数据源配置写入 datasource,智能体绑定写入 agent_datasource,选表写入 agent_datasource_tables,逻辑外键写入 logical_relation

  • 类型扩展:BizDataSourceTypeEnum 定义数据源类型;

    对应的 Accessor + DBConnectionPool 负责不同数据库协议与方言的访问。

  • Schema 初始化:AgentDatasourceController 触发初始化,SchemaService 通过 AccessorFactory 拉取表/列/外键并写入向量库。

  • 运行时选择:DatabaseUtil 从当前智能体获取激活数据源,动态选择 Accessor 执行 SQL。

  • 约束:同一智能体同一时间仅允许启用一个数据源(AgentDatasourceService.toggleDatasourceForAgent)。

  • 获得效果一个智能体,纵览全司数据!无论数据在哪儿,DataAgent 都能精准“路由”。它是数据孤岛的终结者,让跨库分析像查询单表一样简单。

4.8 报告生成与摘要建议

  • 遇到问题 查出来一堆数字有什么用?领导要的是洞察,是结论,是能直接发在群里的 HTML 报告。

  • 解决方案

    • 报告节点:ReportGeneratorNode 读取计划、SQL/Python 结果与摘要建议(summary_and_recommendations)。

    • 输出格式:默认 HTML,plainReport=true 输出 Markdown(简洁报告)。

    • 优化提示词:自动拼接优化配置后生成报告。

  • 获得效果把分析师的一天缩短为 10 秒。从查数到成稿,DataAgent 承包了所有体力活,让你只负责最后的一锤定音。

4.9 NL2SQL 转换, 语义模型,逻辑外键引擎

  • 遇到问题 纯大模型写 SQL 经常“盲目自信”,不是字段写错,就是不懂业务术语。语法错误导致的执行中断更是家常便饭。

  • 解决方案

    • 语义模型层通过管理端定义的术语映射规则,在生成阶段强制约束。

    • 两阶段校验SqlGenerateNode 生成后接 SemanticConsistencyNode 检查语义一致性。

    • 自愈循环SqlExecuteNode 捕获执行错误并反馈给 Graph 状态机,触发重定向至重写节点进行纠错。

    • 逻辑外键写入外部的业务逻辑的外键,不写入业务数据库。增强对表的理解能力。

  • 获得效果让 AI 拥有“职业分析师”的严谨。 告别报错,告别幻觉。它不仅懂 SQL 语法,更懂你的业务逻辑,让每一次查询都精准命中。

4.10 API Key 与权限管理

  • 遇到问题接口裸奔?权限失控?想对外开放能力却怕费用爆炸或数据泄露。

  • 解决方案:

    • 管理端:AgentController 支持生成、重置、删除与启用/禁用 API Key。

    • 数据字段:agent.api_key  agent.api_key_enabled

    • 调用方式:请求头 X-API-Key

    • 注意:默认不开启鉴权拦截;生产需开启 spring.ai.alibaba.data-agent.api-key.enabled=true

  • 获得效果生产级安全防护。让你的 DataAgent 不仅是业务利器,更是安全可控的企业级数字资产。

结语:让数据价值触手可及

DataAgent 的核心价值在于,它不仅仅是完成了一次查询,而是将数据处理的工程化大模型的推理能力深度结合。结合 Spring AI Alibaba  的 Graph 编排与 Agentic 推理能力,DataAgent 将确定性流程与模型推理结合在一起,将原本碎片化的分析过程,转化为了兼具流程确定性与智能化的数据智能体。

未来,数据不再是冷冰冰的行列,而是每一位业务决策者都能随手调用的“智库”。

想了解更多关于 DataAgent 的技术实现细节? 欢迎搜索钉钉群,群号: 154405001431,微信群(下方二维码)加入我们的开发者讨论群,共同探索 AI 的无限可能!

相关资源:

  • https://github.com/spring-ai-alibaba/DataAgent

  • https://github.com/alibaba/spring-ai-alibaba

从管理的角度来看,可以考虑引入A/B测试。一部分流量交给完全自主的AI,另一部分流量走人工干预流程。定期评估两组数据的效果,从而优化human feedback的策略。另外,可以设定一个performance的底线,一旦AI的表现低于这个底线,就强制提高人工干预的比例,保证数据分析的质量。

多数据源接入确实会面临数据质量问题。我的想法是,可以引入数据清洗和转换的步骤,在 DataAgent 分析之前,对数据进行预处理。例如,统一数据格式、处理缺失值、去除重复数据等。对于数据冲突,需要根据业务规则进行调解,确保数据的一致性。

安全问题必须重视!容器化本身提供了一定的隔离性,但还不够。我认为可以从以下几个方面加强安全:1. 代码审查:对 Python 代码进行严格审查,防止恶意代码的注入。2. 权限控制:限制 Python 进程的权限,只允许其访问必要的数据和资源。3. 沙箱环境:使用沙箱环境运行 Python 代码,进一步隔离风险。4. 监控告警:实时监控 Python 进程的运行状态,及时发现异常行为。

评估Prompt优化效果,别忘了最重要的一点:业务指标!你prompt改的再花里胡哨,如果最终提升不了销售额、降低不了运营成本,那就是瞎折腾。所以,一定要把prompt优化和你的KPI挂钩。

至于优化策略,我推荐一个’黄金法则’:少即是多。别一股脑把所有信息都塞给AI,要学会提炼关键信息,用最简洁的语言表达你的意图。想想你平时和同事沟通,是长篇大论效率高,还是三言两语直击要害?跟AI沟通也是一个道理!

补充一下楼上的观点,多数据源接入的一个关键挑战在于元数据管理。企业需要维护一个统一的元数据目录,记录各个数据源的表结构、数据类型、含义等等。这样 AI 才能正确地理解数据,生成准确的 SQL 查询。

另外,数据安全也是一个不可忽视的问题。企业需要采取各种措施,保护敏感数据不被泄露,比如数据加密、访问控制等等。

同意楼上的说法!Human-In-The-Loop 应该是一种常态,而不是一种临时补救措施。我们在享受 AI 带来的便利的同时,也要时刻保持警惕,不能完全放权。毕竟,AI 的背后还是人写的算法和规则,如果算法本身存在偏差,或者规则没有考虑到所有的情况,那么 AI 的结果也可能存在问题。

从技术实现的角度看,多数据源接入需要解决数据连接、数据转换和数据查询三个核心问题。数据连接涉及到各种数据库驱动和协议的兼容性;数据转换需要处理不同的数据格式和编码;数据查询需要优化跨数据源的查询性能。这些都需要一定的技术积累和经验。

问到了关键点!文章里提到的多数据源接入,目前可能主要集中在关系型数据库。要支持 NoSQL、数据湖或者外部 API,感觉需要更强大的数据抽象和转换能力。比如,引入类似 Apache Beam 或者 Apache Flink 这样的流处理框架,将不同来源的数据转换成统一的格式,然后再让 DataAgent 进行分析。当然,这会引入额外的复杂性,需要仔细权衡。

我觉得这个问题有点像自动驾驶技术。完全的自动驾驶可能还不太现实,但辅助驾驶可以大大减轻驾驶员的负担。DataAgent 的人类反馈机制也是类似的思路。

关键在于**“适度”**。不能完全依赖 AI,也不能完全否定 AI。需要在实践中不断摸索,找到一个最佳的平衡点。而且,随着 AI 技术的不断发展,这个平衡点也会动态变化。

我的看法是,AI 的自主性和人工干预的平衡是一个动态调整的过程。一开始,人工干预可以多一些,帮助 AI 快速学习和适应业务场景。随着 AI 能力的提升,可以逐步减少人工干预,让 AI 承担更多的自主性。

此外,还可以考虑引入 A/B 测试,比较不同干预程度下的分析结果,找到最佳的平衡点。

当然,不同行业和业务场景对准确性和可靠性的要求不同,这也需要我们根据实际情况进行调整。

人类反馈机制确实是保证AI分析质量的关键,但挑战也很多。比如,用户可能不懂数据,给出的反馈反而误导了AI。或者用户太忙,反馈不及时,导致AI分析停滞。为了应对这些问题,可以考虑以下方案:

1. 建立一套用户反馈质量评估体系:对用户的反馈进行评分,低质量的反馈可以被忽略或者由专家进行二次 review。
2. 优化反馈流程:设计更友好的反馈界面,提供清晰的反馈选项,降低用户反馈的门槛。
3. 引入主动学习机制:让AI主动识别哪些地方最需要人工干预,并及时向用户请求反馈。
4. 建立知识库:常见的问题和反馈都记录下来,AI可以从知识库里学习,减少对人工反馈的依赖。

我觉得完全取代不太可能,DataAgent 更多的是承担了重复性、标准化的工作,比如数据清洗、SQL 编写等等。真正有价值的数据分析,还是需要人来解读数据背后的业务逻辑和趋势,提出有洞见的建议。所以,未来数据分析师可能需要更多地关注业务理解、沟通和策略制定这些方面,成为 AI 的“指挥官”和“翻译官”。

我觉得 RAG 的关键在于如何平衡“检索”和“生成”之间的关系。如果过度依赖检索,AI 可能会变成一个简单的信息整合工具,缺乏创造性和个性化。如果过度依赖生成,AI 又可能会出现幻觉或者生成不准确的内容。所以,需要根据具体的应用场景和需求,调整 RAG 的参数和策略,找到最佳的平衡点。这就像炒菜一样,火候和调料的比例很重要。

这个问题涉及到数据治理的范畴了。DataAgent 作为一个数据分析工具,其准确性和一致性很大程度上依赖于底层数据质量。如果数据源本身就存在问题,那么 DataAgent 的分析结果也会受到影响。所以,在引入 DataAgent 之前,企业需要先做好数据治理工作,包括建立统一的数据标准、规范数据采集流程、加强数据质量监控等等。当然,DataAgent 也可以提供一些数据清洗和校验的功能,但这些功能只能作为辅助手段,不能完全替代数据治理。

这个问题很有深度!从控制论的角度来看,人类反馈机制可以看作是一个负反馈系统,目标是纠正 AI 的偏差,使其输出更符合预期。但是,如果反馈过于频繁或者不准确,反而会引入新的噪声,影响系统的稳定性。因此,我们需要设计一个合理的反馈机制,包括反馈的渠道、频率、内容等等。同时,也要不断评估反馈机制的效果,根据实际情况进行调整。

我认为,除了技术,用户对 NL2SQL 的接受程度也很重要。很多业务人员可能已经习惯了使用传统的 SQL 查询方式,让他们改变习惯需要一个过程。所以,在推广 NL2SQL 的时候,需要加强用户培训,让他们了解 NL2SQL 的优势和使用方法。同时,也要收集用户的反馈,不断改进 NL2SQL 的用户体验,使其更加易用和友好。

我觉得这个问题问到了点子上!多数据源接入就像是把不同国家的货币放在一起,没有统一的汇率和防伪措施,很容易出问题。除了数据一致性和安全性,我还担心数据的所有权和合规性问题。比如,某些数据可能涉及用户隐私,未经授权的访问和使用可能会触犯法律。

所以,在享受多数据源带来的便利的同时,一定要时刻保持警惕!

我觉得可以引入一个“数据编排层”,由这一层负责将多个数据源的数据进行整合和转换,然后提供一个统一的接口给 DataAgent 调用。 这样 DataAgent 就不需要直接访问多个数据源,而是通过数据编排层来获取所需的数据。

避免报告“套路化”,我觉得要从 Prompt 的设计入手。不能给 AI 太过死板的指令,要鼓励它进行更加灵活和深入的分析。可以尝试引入一些“探索性”的 Prompt,例如“分析影响销售额的主要因素”、“找出客户流失的原因”等等,引导 AI 从不同的角度挖掘数据。