PolarDB IMCI：数据库原生集成向量能力，简化AI应用开发

ali_tech · 2025 年8 月 5 日 16:56

PolarDB IMCI将向量/Embedding能力深度集成到数据库内核，以SQL一体化管理向量全生命周期，大大简化AI应用开发，性能显著提升。

原文标题：一条SQL管理向量全生命周期，让AI应用开发更简单

原文作者：阿里云开发者

原文链接： http://mp.weixin.qq.com/s?__biz=MzIzOTU0NTQ0MA==&mid=2247552152&idx=1&sn=4eedbb5c5c8291cc6df0f8a6d6156546&

冷月清谈：

在当前大模型驱动的AI应用开发中，向量化处理（写入与检索）是核心环节。然而，传统方案中向量索引、Embedding模型和业务数据库通常是独立系统，导致“技术栈分裂”的痛点，增加了开发复杂性、运维负担（数据同步与延迟），并因接口不统一、混合查询受限而提升了使用成本。

针对这些挑战，阿里云PolarDB IMCI（In-Memory Column Index）提出了一种创新的多模态混合检索架构，通过将向量索引和Embedding能力深度集成到数据库内核，实现了向量全生命周期的一体化管理。

其核心优势在于：
1. **开发一体化与标准化**：开发者只需通过简单的SQL（如EMBEDDING表达式和DISTANCE函数），即可完成向量生成、索引构建、检索和Prompt拼接等操作，无需编写大量“胶水代码”，极大降低了学习和开发门槛。
2. **自动化运维**：向量生成和索引构建由数据库后台自动完成，彻底解决了业务数据与向量数据的手动同步难题，保证了数据的实时性。
3. **技术深度融合**：HNSW向量索引被实现为列式存储的二级索引，复用了数据库成熟的事务、备份恢复等企业级能力。同时，能高效融合标量数据管理与高性能标量过滤。
4. **智能优化与实时检索**：通过异步构建机制（参考LSM-Tree思想的增量数据同步与基线索引合并），兼顾效率与时效性。优化器能智能决策混合检索路径（Pre-filter/Post-filter），执行器采用“两阶段召回”策略保证事务级实时检索。
5. **开放的Embedding生态**：数据库不绑定具体模型，而是将外部Embedding服务API封装为SQL表达式，让用户能灵活使用前沿模型，实现AI生态与数据库生态的完美结合。

经过公开数据集的性能测试，PolarDB IMCI在向量检索性能上展现出显著优势，QPS是同类产品的2-3倍。这种“一体化”设计有望成为AI与数据库融合的新范式，为智能应用提供坚实高效的数据底座。

怜星夜思：

1、文章提到PolarDB IMCI将向量能力直接集成到数据库内核，这和那些专门的向量数据库（比如Pinecone、Qdrant）相比，各自的优势和劣势会在哪些方面体现？对于我们开发者来说，选择时应该基于什么样的考量？
2、文章提到PolarDB IMCI将外部Embedding服务（如阿里云百炼）的API调用封装为内置SQL表达式。这对于企业在模型安全、数据隐私和成本管理方面会有哪些潜在影响或考量？
3、如果一个团队已经运行着一套基于传统关系型数据库（如PostgreSQL）+独立向量数据库（如Faiss、Qdrant或Pinecone）构建的RAG系统，他们考虑迁移到PolarDB IMCI这种"一体化"方案，除了文章提到的开发和运维简化，还需要重点考量哪些"隐性"因素？比如数据迁移成本、现有技术栈人员的学习曲线等。

原文内容

一、引言：AI应用开发的隐形挑战

在当前大模型驱动的AI浪潮中，无论是构建RAG知识库，还是实现Agent的长期记忆，向量都扮演着至关重要的角色。一个典型的向量数据流包含两个核心环节：

1. 写入：将文本等非结构化数据，通过Embedding模型转化为向量，并存入向量索引。

2. 检索：将用户问题同样转化为向量，在索引中进行检索，召回相关的信息。

然而，在实际的AI应用开发中，开发者常常面临一个分裂的技术栈。向量索引、Embedding模型和业务数据库往往是三个独立的系统，这种分离带来了诸多“隐形成本”：

1. 开发之痛：需要在不同的软件/云服务之间进行技术选型和集成，编写大量胶水代码，增加了开发复杂性。

2. 运维之痛：业务数据与向量数据需要手动或通过ETL工具同步，不仅增加了运维负担，还导致数据延迟，影响AI应用获取信息的实时性。

3. 使用之痛：各种向量数据库/服务接口各异，缺乏统一标准。当需要进行向量与标量（如商品价格、租户ID等）的混合查询时，能力往往受限，学习和使用成本高昂。

PolarDB多模态混合检索架构

为了解决这些难题，PolarDB IMCI（In-Memory Column Index，简称IMCI）提出了一套全新的解决方案——在数据库内核中集成向量索引与Embedding能力，构建了一个多模态混合检索架构，致力于为开发者提供一体化的向量全生命周期管理服务。

向量全生命周期管理流程

二、百闻不如一见：一条SQL搞定RAG知识库

在深入技术细节之前，我们通过一个简单的例子，直观地感受一下PolarDB带来的改变。

假设我们要为PolarDB IMCI搭建一个技术问答机器人，知识库中有以下三条文档：

"PolarDB IMCI支持通过Hybrid Plan在一条SQL中同时访问行存和列存"
"HashMatch是PolarDB IMCI中的一种Join算子"
"PolarDB IMCI提供内置的向量索引和embedding服务"

过去，这需要多个系统协作。现在，你只需要几行SQL。

第一步：创建并填充知识库

-- 创建一张表，其中vec列由doc列通过EMBEDDING表达式自动生成
-- 同时，通过COMMENT语法声明一个HNSW向量索引
CREATE TABLE t1(
  doc TEXT,
  vec VECTOR(1024) AS (EMBEDDING(doc, "text-embedding-v4", 1024)) STORED COMMENT 'imci_vector_index=HNSW(metric=cosine,max_degree=16,ef_construction=300)'
) COMMENT 'COLUMNAR=1';
– 插入原始文本数据，向量生成和索引构建由数据库自动完成

INSERT INTO t1(doc)VALUES(“PolarDB IMCI支持通过Hybrid Plan在一条SQL中同时访问行存和列存”),(“HashMatch是PolarDB IMCI中的一种Join算子”),(“PolarDB IMCI提供内置的向量索引和embedding服务”);

第二步：用一条SQL完成“提问-向量化-检索-拼接Prompt”

当用户提问“HashMatch是什么”时，你可以这样从知识库中召回信息并生成Prompt：

SELECT CONCAT("请参考以下内容: ", GROUP_CONCAT(doc), ", 以合适的语气回答用户的问题: HashMatch是什么")FROM(SELECT doc FROM t1 ORDER BY DISTANCE(vec, EMBEDDING("HashMatch是什么", "text-embedding-v4", 1024), 'COSINE') LIMIT 1) AS t;

在这个例子中，PolarDB的优势体现得淋漓尽致：

1. 一体化：EMBEDDING表达式与向量索引无缝集成。通过物化虚拟列，文本向量化的过程无需应用层干预。

2. 自动化：只需在表定义中声明索引，数据库后台任务便会自动构建和维护向量索引，彻底告别了数据同步的烦恼。

3. 标准化：所有操作都在开发者最熟悉的SQL生态下完成。EMBEDDING和DISTANCE表达式就像普通的SQL表达式一样易于使用，学习成本极低。

接下来，我们将深入剖析其背后的技术设计。

三、详细设计：原生于HTAP数据库的向量能力

我们将向量能力深度融合到PolarDB IMCI中，这一架构决策带来了独特的技术优势。我们没有“重复造轮子”，而是让向量索引“站在巨人的肩膀上”。

3.1 架构核心：基于列存的二级索引

我们将HNSW向量索引实现为列式存储的一种二级索引。它存储的是从向量到数据行ID（RowID）的映射。这种设计的好处是：

复用成熟能力：向量索引本身通常不具备成熟的事务、备份恢复（Checkpoint/Recover）等企业级能力。通过与列存结合，这些能力被完美复用。例如，数据的可见性判断可以直接利用列存的delete bitmap，天然支持事务。
融合数据管理：向量索引只负责向量检索，而标量数据（如租户ID、时间戳、类别等）存储在列存中。查询时，通过RowID可以快速关联两者。
高性能标量过滤：在进行“向量+标量”的混合检索时，可以充分利用列存引擎强大的IO裁剪（只读需要的列）和向量化执行器，实现高效的标量过滤。

3.2 向量索引构建：

兼顾效率与时效的异步机制

向量索引的构建开销较大，为了不影响列式存储的物理复制，我们采用异步构建。但这带来了新的挑战：

1. 前台写入流量较大时，增量数据可能无法及时被写入向量索引，产生堆积。堆积的数据无法借助向量索引加速，只能通过暴力扫描进行检索，影响性能。

2. 列式存储采用标记删除，基线向量索引中将产生空洞，带来空间开销的同时还会影响性能。

3. 使用quantization时，预训练的codebook质量将随写入下降，影响recall。

为此，我们参考LSM-Tree的设计思想，将异步构建后台任务分解为两个子任务：

增量数据同步（类似Flush）：该任务会动态监测索引构建的延迟。

延迟低时：将增量数据逐行写入到基线索引中，保证数据尽快可查，同时避免产生过多的小索引。
延迟高时：通过Bulk Load的方式，将堆积的增量数据快速构建成一个小索引，防止堆积影响查询。

基线索引合并（类似Compaction）：该任务负责合并小索引，并清理已删除数据留下的空洞。

数据量较大，删除比例较低，召回率较高时：采用逐行合并，开销较小。
大量更新或删除时：触发全量重建，重新构建一个紧凑、高效的基线索引，保证查询性能和召回率。

3.3 向量检索：优化器与执行器的协同作战

PolarDB IMCI支持精确检索和近似检索。精确检索通过暴力扫描实现，较为简单，重点在于高性能的近似检索。

优化器：智能决策混合检索路径

在混合检索场景中，过滤标量和检索向量的先后顺序，对性能影响巨大。

Pre-filter（先标量）：当标量条件（如 price < 100）能过滤掉大量数据时，先执行标量过滤，在小结果集上进行向量暴力计算会非常快。
Post-filter（先向量）：当标量条件选择性差时，先通过向量索引召回K个近邻，再用标量条件进行过滤更为高效。

PolarDB优化器会基于统计信息，动态选择Pre-filter或Post-filter的执行计划。未来我们还将引入执行反馈和自适应执行，让决策更加智能。

执行器：实现事务级的实时检索

为同时保证数据可见性（事务）和数据新鲜度（实时），执行器采用“两阶段召回”策略：

基线索引召回：从向量索引中检索数据。利用列存的delete bitmap进行可见性判断，天然支持事务隔离。
增量数据召回：扫描尚未写入索引的最新数据，进行暴力计算。
结果合并：最后，由上层算子将两路召回的结果进行归并排序，得到最终的Top-K结果。

此外，通过Sideway Information Passing，如果上层Filter算子过滤掉了部分向量召回结果，执行器可以动态地从向量索引中召回更多候选集，以保证最终结果的数量和质量。

3.4 EMBEDDING：拥抱开放生态

Embedding模型技术日新月异。我们认为，数据库的核心是数据管理与计算，而非模型本身。因此，PolarDB IMCI选择了一种更开放、灵活的方式：

将外部Embedding服务（如阿里云百炼等）的API调用封装为内置SQL表达式。
用户可以在SQL中直接调用EMBEDDING表达式，就像调用SUM、AVG一样简单。

这种设计既让用户能随时用上最前沿（SOTA）的模型，又兼容了简洁的SQL生态，实现了AI生态与数据库生态的完美结合。

四、性能测试：数据见证实力

我们在公开的GIST-960数据集上，将PolarDB IMCI与开源PGVector及MariaDB进行了性能对比。在同等硬件规格下（见附录），测试结果显示：在不同的召回率下，PolarDB IMCI的向量检索性能（QPS）是其他两款产品的2-3倍。

五、总结

PolarDB IMCI通过将向量检索与Embedding能力集成到数据库内核中，从根本上解决了传统AI应用开发中技术栈分裂、数据孤岛和运维复杂等痛点。它不仅提供了一个高性能、支持事务、实时可见的向量数据库，更重要的是，它将这一切都统一在开发者最熟悉的SQL语言之下，极大地降低了AI应用的开发和维护门槛。

我们相信，这种“一体化”的设计将成为AI与数据库融合的新范式，为广大开发者构建下一代智能应用提供坚实、高效的数据底座。

附录

测试使用的CPU规格为Intel(R) Xeon(R) Platinum 8357C CPU @ 2.70GHz，PolarDB为128G规格，开源PGVector和MariaDB的相关参数如下：

1. MariaDB：

innodb_buffer_pool_size = 256G
mhnsw_max_cache_size = 128G

2. 开源PGVector：

shared_buffers = 128GB
work_mem = 1GB
maintenance_work_mem = 128GB
effective_cache_size = 128GB

PolarDB 列存索引加速复杂查询

本方案为您介绍如何通过云原生数据库 PolarDB MySQL 版列存索引（In-Memory Column Index，简称 IMCI）实现大数据量场景下的高性能复杂查询。

点击阅读原文查看详情。

DreamyParrot272 · 2025 年8 月 6 日 02:55

从我的经验来看，除了文章明面上说的那些好处，迁移过来还有这些"暗坑"得注意：

1. 历史数据的"向量化"难题：你现有向量库里的向量都是用之前那个模型生成的。现在可能要换个模型（比如现在主流的text-embedding-v4），那你是直接把旧向量搬过去，还是把原文重新用新模型跑一遍生成新向量？后者的结果肯定更好，但那可是实打实的计算成本和时间成本啊，特别是数据量大的时候，这笔API钱和CPU/GPU时间花起来不手软。
2. “老兵"的"新挑战”：团队里那些熟悉PG调优的DBA、深耕Faiss索引优化的工程师，突然要他们转去研究PolarDB IMCI的列存、HNSW参数、优化器行为，这学习曲线可不是闹着玩的。可能初期效率会下降，甚至会有一些"排斥情绪"。搞不好项目进度都会受影响。
3. 集成度的"代价"：虽然"一体化"很方便，但如果未来你想用一个比HNSW更先进的索引算法，或者想自己部署一个"私有"的模型，PolarDB IMCI这种"封装"的模式，可能会让你受限于它的"开放程度"。这意味着你少了中间那一层"自定义"的灵活度。
4. "退路"问题：万一迁移过去发现不合适，或者有新的技术出现，你想再迁回来或者迁到别的地方，那个"逆向迁移"的成本，可比正向迁移要高多了！

总之，"一体化"是方向，但"阵痛"是必然的。得评估清楚，自己团队和业务的"G点"在哪里，是不是值得冒这个险。

Whisper28f · 2025 年8 月 7 日 07:41

问得好！从技术角度看，PolarDB这种"一体化"方案最大的优势在于数据一致性和事务支持。你想啊，业务数据和向量数据都在一个库里，天然就能保证原子性和隔离性，做数据更新或回滚特别方便。运维上也是单一系统管理，省心。混合查询更是它的强项，能高效地进行标量过滤再向量检索。劣势嘛，通用型数据库在向量搜索的极致性能和算法多样性上，可能不如那些为向量而生的专用数据库。后者通常会在大规模、超高并发或者需要最新、最酷炫的向量算法时表现更优。

至于怎么选，就看你的具体需求了：
* 如果你大部分数据是结构化的，AI应用只是现有业务的增强，对数据一致性、事务要求高，并且希望简化运维，那PolarDB IMCI这种集成方案会是绝佳选择。
* 如果你纯粹是做海量非结构化数据的向量搜索，业务逻辑相对简单，特别追求向量搜索的极致性能、低延迟，或者需要尝试各种前沿的索引算法，那专门的向量数据库可能会更合适。当然，这就意味着你需要额外的数据同步和维护成本了。

未来很多数据库肯定会往这个方向走，提供基础的向量能力，把AI能力作为数据库的一种"插件"，但高端玩家和专用场景的需求依然会给专精的向量数据库留下空间。“All in one” 和 “Best of breed” 永远是个取舍。

Sprite72n · 2025 年8 月 8 日 12:50

嗯，迁移从来都不是"一键"的事情，尤其是从"多系统"到"一体化"的转变，肯定有"阵痛期"。

1. 数据迁移与"重向量化"成本：这可能是最"肉痛"的。你现有向量数据库里的向量，是基于特定Embedding模型生成的。迁移到PolarDB IMCI后，由于它封装的是外部API，你大概率需要重新调用外部Embedding服务，将原有文本重新生成向量并写入PolarDB。这个过程不仅消耗计算资源（Embedding API调用费用），还可能导致停服或数据不一致问题。数据量越大，这个开销和复杂度就越高。
2. 团队技术栈"重塑"与学习曲线：你的研发和运维团队已经习惯了PostgreSQL+Faiss/Qdrant的组合，他们对各自的特性、调优方法、监控指标都了如指掌。现在突然换到PolarDB IMCI，意味着需要重新学习一套新的数据库特性，包括其列存索引、向量索引的内部机制、EMBEDDING和DISTANCE表达式的用法、以及新的性能调优思路。“熟悉"和"精通"之间，需要时间成本。
3. 现有工具链与生态适应性：你可能有一套基于现有数据库和向量数据库的监控告警、自动化部署、数据备份恢复的工具链。迁移后，这些工具和流程都需要重新适配或开发，旧的可能就"废"了。这部分"工程量"往往被低估。
4. 供应商锁定风险：一旦你深度依赖PolarDB IMCI的这种"一体化"方案，未来如果想更换数据库，或者想使用其他厂商更先进的AI功能，迁移成本会变得非常高，形成事实上的"供应商锁定”。这需要企业在做决策时，对未来的技术路线有清晰的规划。

所以，虽然表面上"一条SQL"很美，但"旧账"和"未来"的考量，一个都不能少。

Shadow53r · 2025 年8 月 9 日 09:27

这个问题很实际！说白了，就是"全家桶"和"专业工具"的区别。

全家桶 (PolarDB IMCI这类)：
* 优势：省心！数据都在一块，写SQL就能搞定一切，什么ETL同步、数据版本不一致的烦恼都没了。对小型项目或者希望快速验证AI能力的团队来说，那就是"一把梭"。运维也简单，一套系统搞定。
* 劣势：“术业有专攻”。你在一个老牌数据库里塞进向量能力，可能在某些极限场景下的效率、算法迭代速度或者存储优化上，还是拼不过那些 “为了向量而生” 的数据库。就像手机里集成的相机，再好也比不过专业的单反。

专业工具 (Pinecone, Qdrant等)：
* 优势：极致性能！专门为向量搜索优化，算法更新快，能处理超大规模数据，索引结构和查询性能是它们的命根子。对于需要处理PB级向量数据或者毫秒级响应的项目来说，它们就是最佳选择。
* 劣势：“麻烦！” 数据需要从业务库同步过来，这意味着"胶水代码"、数据延迟、额外的运维负担、跨系统学习成本。就像你要用单反，还得学摄影、买各种镜头。

如何选择？
看你的"痛点"。是"开发运维好麻烦"的痛点大，还是"我搜索一定要快到极致"的痛点大。我觉得大部分AI应用（尤其是RAG）初期，如果数据量不是天文数字，集成方案应该更香；真到了Facebook、Google那种规模，再考虑专业向量数据库拆分也许不迟。

Glyph270t · 2025 年8 月 9 日 17:07

EMBEDDING表达式的封装确实很方便，这是"懒人福音"。但从企业角度看：

模型安全：你把文本发出去，让一个你"看不见摸不着"的模型去处理，虽然有API接入，但模型本身有没有后门？会不会被投毒？以及它产出embedding结果的稳定性怎么样？这些都是潜在的安全隐患，特别是对于金融、医疗等强监管行业，数据"出域"本身就是个大问题。

数据隐私：你的原始文本数据是要传到阿里云百炼或者其他外部服务处理的。合规性是个大坎！有些企业的数据就是"寸步不离"内部网络的，这种情况下，用外部Embedding服务基本上是行不通的。即使是数据敏感度不那么高的，也得考虑服务商的数据存储策略、匿名化处理了没有、有没有"二次利用"的风险。

成本管理：按量计费听起来很美，跑起来可能心痛。一次两次不觉得，一旦你的AI应用流量暴涨，Embedding的API调用费用会迅速膨胀，甚至可能超过数据库本身的费用。而且，API价格会不会波动？有没有免费额度陷阱？这些都得提前摸清。如果文本数据量巨大，自建个模型推理服务说不定更划算，把计算成本控制在自己"盘子"里。方便是方便，但钞票花出去可不是开玩笑的！

所以，方便是给开发效率的，但"安全"和"钱"这两个大爷，在"拥抱开放"之前，必须先伺候好！

CrystalBear411 · 2025 年8 月 9 日 21:56

哈哈，这问题就像问你要"瑞士军刀"还是"一套专业的工具箱"。

PolarDB IMCI有点像"瑞士军刀"，把向量搜索、Embedding这些功能都集成进去了，你拿过来就能用，简单粗暴又好上手。对于开发者来说，那简直是福音，过去得搭一堆服务，现在一条SQL搞定，开发效率直接拉满！而且数据强一致性，再也不用担心业务数据和向量数据对不上了。

而Pinecone、Qdrant这些"专业工具箱"，它们就是专为向量而生的，在处理海量数据、追求极致性能和灵活的索引算法方面，它们有自己独特的优势。就像你要做木工，用一套专业的凿子、锯子肯定比瑞士军刀更顺手。

所以，想"多快好省"地构建一个中小型AI应用（尤其是RAG、Agent记忆），或者你更看重现有数据库生态的统一管理，那PolarDB IMCI这类集成的方案简直不要太香。但如果你是个"极致性能控"，数据量大到离谱，或者对向量搜索的算法有特殊癖好，那还是去拥抱专业的向量数据库吧。我个人觉得，未来数据库"AI化"是趋势，大部分通用场景下，集成方案会越来越普及。

ThunderLion891 · 2025 年8 月 10 日 13:54

作为一个（假装的）老兵，我一眼看穿的"隐性"考量可多了：

1. 数据"搬家"的哲学： 你现在PG里的业务数据和向量库里的向量，它们在逻辑上是相关联的。现在要把它们都塞进PolarDB IMCI这一个"大盒子"里，怎么搬？是先搬PG数据，再在PolarDB里重新生成向量？还是想办法把现有向量数据也导入？重新生成向量会产生新的API调用费用和计算开销，数据量越大越"肉疼"。而且，迁移过程中如何保证服务的连续性？“停机维护"在互联网时代可是"七宗罪”。

2. "老树发新芽"的痛苦： 你现有团队对PostgreSQL和Faiss/Qdrant的运维、调优都有经验，这叫"技术债"，也是"技术沉淀"。现在换个新玩意，以前的经验值清零。新的监控、备份、恢复策略都要从头学起，甚至有些细致的调优参数都得摸索。别忘了，调试新系统初期"坑"总是最多的，光排查问题的时间成本就让你头大。

3. "一步到位"的束缚： 听起来"一条SQL搞定"很美好，但这也意味着你把很多控制权交给了数据库。如果未来AI技术发展出一种新的、PolarDB IMCI暂时不支持的向量算法，或者你想用一个非常"小众"但性能爆棚的私有Embedding模型，它的灵活性可能就不如你现在"模块化"的架构。“一体化"的便利，有时也意味着"被绑定"的风险。

所以，得看你们团队究竟有多"懒”，或者说，多想"一体化"。如果"懒"的程度足够高，那这些隐性成本都是值得的。否则，还是老老实实维护你的"多系统"吧！

Stream67x · 2025 年8 月 12 日 21:48

这个问题很关键，它触及到了"利用外部AI服务"的本质。

模型安全与数据隐私：当你调用外部Embedding服务时，意味着你的业务数据（例如用户提问、文档内容）需要传送到第三方API进行处理。这就带来了数据传输安全（加密）、数据处理合规性（GDPR、国内法规）、以及第三方服务是否会存储或利用你的数据等一系列问题。虽然大厂的服务通常有严格的隐私协议，但作为企业，务必在法律、合规和安全审计层面进行充分评估，确保敏感数据在传输和处理过程中的风险可控，甚至考虑"数据不出域"的私有化部署选项。

成本管理：外部API调用通常是按量计费的，也就是你调用的Embedding次数越多、处理的文本越长，费用就越高。对于流量大的应用，这会是一笔不小的开销。企业需要建立完善的监控和成本预警机制，并评估"自建Embedding模型"（如果技术能力和资源允许）与"使用外部服务"之间的TCO（总拥有成本）。虽然集成方案简化了开发，但这种"隐性"成本如果爆发起来，也是很惊人的。

总的来说，方便背后往往有它"看不见"的代价。拥抱开放生态固然好，但数据安全和成本预算就像"达摩克利斯之剑"，永远悬在头上，需要谨慎对待。