珊瑚书发布:从零开始打造你的向量数据库

原文标题:珊瑚书出版!从零开始,万行代码自制向量数据库

原文作者:图灵编辑部

冷月清谈:

**珊瑚书介绍**

《从零构建向量数据库》是首本介绍向量数据库的中文原创图书,因封面上的珊瑚图案而得名。作者罗云是中国工程院外籍院士王江舟等多位领域专家推荐。

本书特色

  1. 实操导向,从写 Hello World! 开始,用 10000 行代码带你真正学会写向量数据库。
  2. 内容扎根实战,涵盖向量数据库的方方面面,图文并茂,通俗易懂。
  3. 专业背景,作者为腾讯云向量数据库负责人,带领团队积累了丰富的实战经验。

适合读者

  1. 对向量数据库感兴趣,想深入了解其源码级别构建过程的初级程序员。
  2. 对数据库领域感兴趣,想了解分布式向量数据库核心知识的开发者。
  3. 对 AI 应用开发感兴趣,想了解向量数据管理的 AI 应用开发者。
  4. AI 应用开发或数据库领域的专家,希望发现改进之处,推动行业发展的专业人士。



怜星夜思:


1、向量数据库被炒作得这么火,技术层面真的比传统数据库有优势吗?还是说只是噱头?
2、作者在书中提到「从零构建并不是说啥都得自己写」,这句话具体是什么意思?
3、作者在文末提到了本书代码免费提供,请问可以在哪里下载?

原文内容

2023 年,向量数据库的风在 AI 圈吹得一浪高过一浪,好几个初创公司拿到了巨额投资。媒体挟向量数据库狂轰滥炸,一种技术同时在技术圈和投资圈如此受青睐的情况实属罕见。
传统的数据库技术疲于应对向量数据在高维度、高精度和大规模场景下带来的巨大挑战,而 ChatGPT 等基于的生成式 AI 模型处理的正是此类数据。
向量数据库“AI 大基建的”的位子基本做实,向量数据库的先行者们也已经真刀真枪地练起来,但更多渴望了解这门技术的普通读者依然对向量数据库技术的细节了解不多。
2024年,媒体方面安静了很多,甚至开始有媒体炒作向量数据库“凉凉”——想啥呢,技术已经开始进入真正的实操与落地阶段,大家都铆足劲叠 buff 呢~ 
这时候踏踏实实地去研究一下技术才是正经事。说来,很多朋友苦于市面上没有系统介绍向量数据库的参考书,一直上下求索各种七零八碎的资料。不好意思,让大家久等了——珊瑚书来了!

作者:罗云
京东已经上架了,点上面加购
关于珊瑚书,我们来聊聊几个大家关注的问题。
1.为什么叫珊瑚书
《从零构建向量数据库》是市面上首本原创的「向量数据库」图书。因为封面上的主图是珊瑚得名而来。本书作者罗云认为,珊瑚为多种海洋生物提供栖息地,是海洋生态的重要维护者,这与向量数据库在当前和未来 AI 时代的基础设施支撑作用非常相像,这本全力以赴教大家从零打造向量数据库的图书是为「珊瑚书」。
2.为何要用珊瑚书学习向量数据库
主要有两点:
  • 一方面,简单好学——内容务实、扎根实战,从写 Hello World! 开始,用10000 行代码带大家真正学会写向量数据库;
  • 另一方面,作者背景非常专业。罗云为腾讯云向量数据库负责人,带领团队积累了丰富的一线经验(国内最早搞向量数据库的团队之一)。
细说起来,珊瑚书有以下几大特色:
1.【实操】涉及技术原理、实现细节和实践应用,涵盖向量数据库的方方面面
2.【生动】10次版本迭代/10000行代码;27张表/41幅图/22个思维导图轻松学 
3.【专业】作者罗云是腾讯云向量数据库负责人,带领团队积累了丰富的一线经验
4.【热门】自制成功立马投入实践,带大家结合RAG实现个人知识库等大模型应用
5.【简单】附赠随书代码,随学随查——原来,构建向量数据库如此简单!
大家可以点击以下思维导图了解图书的详细目录:

(可放大查看)

当然,我们反复强调的从零构建并不是说啥都得自己写,毕竟向量数据库涉及的功能太多了,有很多开源项目已经封装好了我们需要的功能,这时候无须自己编写代码,直接引用开源库来实现即可。下表列出了本书引用的开源库及许可协议。

(一句话,该借的借,该造的造)

3. 珊瑚书特别适合哪些读者

本书是一本实战类图书,也涉及简单的原理解析,书中的技术点都是初级程序员就可以理解的。如果你完全不了解编程,建议先打好编程基础,毕竟书里有不少需要你动手操作的源码。

  • 如果你对向量数据库感兴趣,想深入了解向量数据库源码级别的构建过程,本书将教你从零打造一款分布式向量数据库。内容涉及:如何从单机数据库引擎开始构建索引系统,如何增强系统的故障恢复能力,以及如何实现数据库的分布式和集群运作,包括数据复制、流量调度和元数据管理等核心技术。
  • 如果你对数据库领域感兴趣,想深入了解数据库源码级别的构建过程,本书同样适合你阅读——分布式向量数据库的完整构建过程涵盖了这一领域的核心知识。
  • 如果你对 AI 应用开发感兴趣,想了解 AI 应用背后的向量数据是如何生成和管理的,本书将介绍向量数据与大模型的关系,并带你学习向量数据库查询的整个流程。这将帮助你更好地结合向量数据库优化 AI 应用,更新知识,更有效地应对 AI 应用落地过程中的挑战。
  • 如果你是 AI 应用开发专家或数据库领域的专家,希望帮助本书发现改进之处,推动行业发展,本书也值得一读。阅读本书可能会激发你更多有价值的思考。向量数据库是一个较新的领域,更多的信息共享无疑会促进这一领域的进步。

4. 罗云其人

珊瑚书的作者罗云是腾讯云向量数据库负责人。腾讯云团队是国内向量数据库技术的先行者之一,腾讯云的AI 原生(AI Native)向量数据库 Tencent Cloud VectorDB 是国内首个从接入层、计算层、到存储层提供全生命周期 AI 化的向量数据库。
关于罗云的正式介绍如下。
腾讯云数据库副总经理、腾讯云创始团队成员、中国通信标准化协会大数据技术标准推进委员会(CCSA TC601)数据库与存储工作组副组长。
十余年云计算产品技术专家,在复杂分布式系统的建设和管理上实践多年并积累了丰富的经验,擅长将数据治理技术(采集、加工、存储、检索)和AI结合,在AI时代更好地发挥数据的价值。领导多个平台或产品完成从0到1的上线与商业化运营,达到国内领先水平,其中包括:
  • 一站式 Serverless开发平台(小程序云开发) 

  • TencentDB for Redis/MongoDB/KeeWiDB、Tencent Cloud VectorDB等数据库产品

  • 腾讯云数据传输服务(DTS)、数据库智能管家(DBbrain)等多款数据采集和智能化应用平台
5. 领域专家审阅推荐
本书在出版之前,有幸邀请到 AI 及数据库领域的专家审阅,诸位简单总结了他们对本书的评价,供大家参考。
王江舟 | 刘 颖 | 李国良 | 杜小勇
刘知远 | 王昊奋 | 盖国强 | 杨成虎 
联  袂  推  荐

本书是罗云及其团队在AI领域探索的智慧结晶。它不仅深入揭示了向量数据库的工作原理,更提供了丰富的场景案例和实践启发。无论是AI技术的探索者,还是AI应用的创新者,都能从这本书中获得宝贵的灵感和指导。
——王江舟,中国工程院外籍院士

罗云是云计算行业早期的从业者和资深专家,在数据库、网络和分布式系统方面具有丰富的经验。本书从实践出发,深入浅出地讲解了如何打造高性能向量数据库,推荐大家阅读。
——刘颖,腾讯云副总裁

AI的发展呼唤多模态数据的统一表征和管理,向量数据库应运而生,是数据库大家族的新宠。本书深入浅出地介绍其基本概念,从零开始、逐步深入、重视实战,是学习向量数据库很好的参考书!
——杜小勇,中国人民大学信息学院教授、教育部数据工程与知识工程重点实验室主任

本书汇集了罗云以及腾讯云数据库团队多年服务于腾讯集团及其外部客户的丰富经验。书中内容浅显易懂,非常适合对向量数据库技术感兴趣的技术人员阅读。
——李国良,清华大学教授、IEEE Fellow

在“AI平民化”浪潮中,向量数据库作为新兴技术,正迅速成为AI应用的基石。本书以其深入浅出的讲解和实战导向的内容,填补了市场空白。推荐数据库和AI相关领域的从业者阅读。
——刘知远,清华大学副教授

本书不光理论与实践并重,更是一部揭示未来数据管理方向的重要指南。如果你希望在AI时代站在技术前沿,掌握构建和应用向量数据库的核心技能,那么本书无疑是你不可或缺的良师益友。
——王昊奋,同济大学特聘研究员、OpenKG(中文开放知识图谱联盟)发起人

罗云及其团队在向量检索领域探索多年,积累了诸多先行者的宝贵经验。本书是罗云对向量数据库深刻理解和洞察的系统体现,填补了向量数据库图书的空白。相信所有读者通过动手躬行,一定能够从无到有地构建向量数据库,并真正理解其本质。
——盖国强,云和恩墨创始人、鲲鹏MVP(最有价值专家)

本书既包含向量技术理论,也有分布式数据库的实践经验,同时也阐述了相关的应用场景,不仅适合数据库领域的专业人士阅读,也适合对AI技术感兴趣的朋友参考。
——杨成虎,北京枫清科技联合创始人 & CTO

6. 了解完了
现在,你应该已经完全知道这本书是否适合你了,如果你正规划学习,那么不要犹豫,大概两杯平价奶茶的钱就可买到本书(48.8元)!而你掌握的可是 AI 大基建技术,关键中的关键。

扫下面这个图的

二维码也可以购买
PS:如果你想更详细地了解本书内容,「图灵社区」上可以免费下载本书的试读内容(含目录、前言、第4章“实现单机版向量数据库”的部分内容)。
你同时可以下载本书代码。本书代码免费提供给大家,㊗️大家早日掌握 AI 大基建系列技术。
点击「阅读原文」可以前往图灵社区珊瑚书页面。

我刚才试了一下,可以直接在文章的文末找到「下载本书代码」的链接,点击即可下载。

个人认为噱头成分比较大。虽然向量数据库有一些技术上的优势,但是否真的能带来革命性的变化还有待观察。而且目前向量数据库的生态还不完善,缺乏成熟的工具和解决方案。传统数据库经过数十年的发展,已经非常成熟稳定,在性能、可靠性、安全性等方面都有保证。对于大多数用户来说,传统数据库仍然是更可靠的选择。

不能一概而论,具体要看实际应用场景。如果你的数据是向量形式的,并且需要进行相似度查询等操作,那么向量数据库确实有优势。但如果你的数据是结构化的,并且不需要进行复杂的数据处理,传统数据库可能更合适。

从技术层面看,向量数据库确实比传统数据库更适合处理高维度、大规模的向量数据。传统的数据库技术在应对这些数据时,性能和效率都会受到影响。向量数据库采用不同的数据结构和算法,可以高效地处理向量数据,并支持快速的相似度查询。

作者在文末提到了可以在图灵社区下载本书代码。具体方法是扫描文章中的二维码进入图灵社区珊瑚书页面,然后点击「下载本书代码」按钮即可。

个人理解,作者的意思是不要陷入「造轮子」的误区。向量数据库涉及的技术领域很广,很多功能都已经被开源项目实现了。与其花大量时间重复造轮子,不如专注于向量数据库的创新和优化,这样才能创造出更好的产品。

从零构建向量数据库,并不是要从头编写所有代码。作者建议,我们可以利用现有的开源项目和库,将精力集中在向量数据库的核心功能开发上。这样既可以节省时间和资源,又可以保证代码的质量和可靠性。

我认为作者是想强调,在构建向量数据库时,要善于利用现有资源。我们可以借鉴业界成熟的解决方案,将重点放在创新和差异化功能的开发上。这样才能既保证效率,又保持竞争力。