跨越语言边界,Greptime 与蚂蚁向量数据库合作实现向量搜索性能 5 倍新突破

随着人工智能技术的迅猛发展,我们正迎来一场深刻的技术革命。这场变革正在颠覆数据处理和分析的传统方式,加速推动从传统架构向现代智能系统的全面转型。

这一过程中,向量数据库因其在生成式人工智能中的应用而备受关注。随着大模型和基于检索的增强生成等技术的成熟,企业对于管理和快速检索高维向量数据的需求不断增加。向量数据库不仅成为支持大规模模型训练的关键组件,更在实时推理应用中发挥着不可替代的作用。

正是在这样的背景下,近期 Greptime 团队与蚂蚁向量数据库的技术合作更显意义深远:通过整合各自的技术优势,双方在向量数据库的应用场景与性能优化方面取得了显著进展。这次合作不仅为企业提供了更强大的数据处理能力,也为推动行业创新带来了新的动力。

蚂蚁集团向量数据库

蚂蚁集团向量数据库团队,专注于蚂蚁内部向量数据库的研发,团队最近开源了名为 VSAG 的向量搜索索引库。VSAG 以其卓越的性能和易用性,为行业提供了新的选择。

分布式关系数据库 Oceanbase 近期发布的向量数据库能力同样基于 VSAG 构建。

VSAG 源码:https://github.com/alipay/VSAG

Greptime

Greptime 格睿科技专注于为物联网及可观测领域提供实时、高效的时序数据存储和分析服务。GreptimeDB 作为边云协同的云原生分布式时序数据库,也在向向量领域发力。

在 11 月即将发布的 0.10 版本中,将引入向量类型和搜索功能,进一步扩展数据处理的多样性。

GreptimeDB 源码:https://github.com/GreptimeTeam/greptimedb

VSAG 的基础能力

VSAG 支持多种索引算法,如 HNSW 和 DiskAnn,索引算法允许用户搜索各种大小的向量集,特别是那些无法放入内存的向量集。

在距离计算上,提供 L2 距离、内积和余弦相似度,适合多种应用需求。 在性能表现方面,VSAG 在 ann-benchmarks 的 GIST-960 测试中排名第一,展现了其在向量搜索中的高效和可靠。

架构优化的加速效果

GreptimeDB 采用 VSAG 作为向量搜索的加速索引后,获得了 5 倍以上的向量检索性能提升

在测试场景中,GreptimeDB 选用了 VSAG 提供的 HNSW 索引类型,来处理 10 万行 512 维的图片嵌入向量。在文字搜图应用中,相较于未使用索引的情况,获得了显著的性能提升。测试结果如下:

(图 1:GreptimeDB 使用 VSAG 提供的 HNSW 索引类型进行测试)

(图 1:GreptimeDB 使用 VSAG 提供的 HNSW 索引类型进行测试)

从架构层面看,向量索引位于承担存储层角色的 Datanode,通过向存储层下推 TopN 相似度的计算,有效减少了计算层 Frontend 所需处理的数据量,提升了整体性能。

GreptimeDB 的云原生分布式架构设计,使其在处理大规模向量数据时具有近乎无限的水平扩展能力。此外,GreptimeDB 在物联网车端等边缘场景中也能高效运行,确保了向量处理的支持能力,为推动 AI 技术在车载系统中的应用奠定了基础。

(图 2:GreptimeDB 云原生分布式架构设计展示的无限水平扩展能力)

(图 2:GreptimeDB 云原生分布式架构设计展示的无限水平扩展能力)

跨语言的技术对接

VSAG 库采用 C++ 编写,而 GreptimeDB 则是完全基于 Rust 自研的数据库。这种跨语言的集成带来了显著的技术挑战。为解决这一难题,Greptime 团队开发了 VSAG 的 Rust Bindings,并将其开源。

这项工作不仅成功提升了 VSAG 在 Rust 生态中的兼容性和适用性,还为其他 Rust 开发者提供了直接的支持与便利,大大降低了跨语言开发的复杂性。

VSAG-sys 源码:https://github.com/GreptimeTeam/VSAG-sys

总结与展望

此次 Greptime 与 蚂蚁集团向量数据库团队的合作,不仅展示了 VSAG 在向量搜索中的卓越性能,还为 GreptimeDB 的技术升级带来了实质性进展。通过引入 VSAG 作为加速索引,GreptimeDB 的数据处理能力获得了显著提升,进一步优化了用户在向量搜索场景中的体验,帮助企业应对海量高维数据的复杂挑战。

展望未来,VSAG 的持续迭代将为向量数据库引入更多前沿功能,包括新的索引框架、支持多种数据类型和量化技术等。这将为数据处理的灵活性和效率注入新的动力,进一步拓宽其应用领域。

敬请期待 11 月即将上线的 GreptimeDB v0.10 版本,也期待 Greptime 和 蚂蚁集团向量数据库继续携手深化合作,共同迎接向量数据库领域的挑战与机遇,为行业的技术革新和创新贡献更多力量。

关于 Greptime

Greptime 格睿科技专注于为可观测、物联网及车联网等领域提供实时、高效的数据存储和分析服务,帮助客户挖掘数据的深层价值。目前基于云原生的时序数据库 GreptimeDB 已经衍生出多款适合不同用户的解决方案,更多信息或 demo 展示请联系下方小助手(微信号:greptime)。

欢迎对开源感兴趣的朋友们参与贡献和讨论,从带有 good first issue 标签的 issue 开始你的开源之旅吧~期待在开源社群里遇见你!添加小助手微信即可加入“技术交流群”与志同道合的朋友们面对面交流哦~

Star us on GitHub Now: https://github.com/GreptimeTeam/greptimedb

官网:https://greptime.cn/

文档:https://docs.greptime.cn/

Twitter: https://twitter.com/Greptime

Slack: https://greptime.com/slack

LinkedIn: https://www.linkedin.com/company/greptime/

微软开源基于 Rust 的 OpenHCL 字节跳动商业化团队模型训练被“投毒”,内部人士称未影响豆包大模型 华为正式发布原生鸿蒙系统 OpenJDK 新提案:将 JDK 大小减少约 25% Node.js 23 正式发布,不再支持 32 位 Windows 系统 Linux 大规模移除疑似俄开发者,开源药丸? QUIC 在高速网络下不够快 RustDesk 远程桌面 Web 客户端 V2 预览 前端开发框架 Svelte 5 发布,历史上最重要的版本 开源日报 | 北大实习生攻击字节AI训练集群;Bitwarden进一步脱离开源;新一代MoE架构;给手机装Linux;英伟达真正的护城河是什么?
{{o.name}}
{{m.name}}

猜你喜欢

转载自my.oschina.net/u/6839317/blog/16491042