性能持续突破! 火山引擎ByteHouse推出矢量检索能力

小夏 科技 更新 2024-02-22

随着LLM技术的使用和实施,数据库在向量分析和AI支持方面需要先进,向量数据库和向量检索可以“涌现”,迎来行业持续被关爱。 简而言之,向量检索技术和向量数据库可以为 LLM 提供外部图像单元,并且该过程提供与问题和历史答案一致的内容,帮助 LLM 返回更准确的答案。

不仅是LLM,向量检索早已与OLAP引擎有关。 作为一款用于数据分析的软件,OLAP可以快速高效地处理大量数据,并提供多维度的分析功能,而向量检索可以帮助OLAP引擎进一步提高分析和检索非结构化数据的能力。

近日,Volcano Engine的云原生数据栈ByteHouse推出了高功能的向量检索功能,支持多种向量检索算法和高效的实现环节,可支持大规模向量检索场景,达到毫秒级查询时延。

ByteHouse团队长期以来一直致力于矢量检索技术。 据字节豪斯技术专家介绍,“目前向量数据库的发展主要有两种思路,一是建立专用的向量数据库,基于以向量为中心的思路来规划向量数据和索引的存储以及资本治理策略,查询方式简单,配套数据范式有限; 二是在已有稀有数据数据库的基础上,扩展向量检索能力,在现有稀有数据治理机制和查询实现环节中加入向量索引维护和查询实现逻辑。 现在,两个想法正在创造彼此自己的想法,并且正在以完整的数据库功能支持+高功能向量检索的形式发展。 ”

ByteHouse 源自 ClickHouse,但 ClickHouse 存在向量索引重复读取、冗余等问题,低时延要求、高并发要求的向量检索场景可用性较弱。

基于以上分析,bytehouse可以在向量检索方面进行全面的创新。 首先,基于以向量为中心的思想,bytehouse构建了高效的向量检索实现链接,结合索引缓存、存储层过滤等机制,使功能可以进一步破解。 此外,为了应对不同的应用场景,ByteHouse 支持 HNSW、FLAT、IVFFLAT 和 IVFPQ 等多种多常用向量索引算法。 此外,新引入的向量索引支持当下的二级索引相干语义,新的实现环节也适配了已有的区间函数,从而降低了用户应用门槛,学习旧书,用户可以简单地使用clickhouse现有的语义来应用高性能的向量检索功能。

Bytehouse 向量来检索相关组件。

在建立高性能向量检索能力的过程中,bytehouse 首先避免了以下三个灾难点:

一开始,列存储结构读取放大的问题。 为了减少不必要的数据读取操作,bytehouse 在查询实现和数据读取层都进行了优化,Hamergetree 和 HauniqueMergetree 两个引擎的坚实计划为向量检索提供了稳定性保证。 其次,新写入的数据和服务重启时会出现冷读问题,导致功能稳定。 为此,bytehouse 引入了预加载机制,在构建后主动将索引加载到缓存中,并支持对过时索引进行主动雕刻,避免资金过多占用。 最后,由于索引构建会消耗大量资金,为了减少构建操作对正常查询功能的影响,bytehouse 引入了资金控制策略,允许用户根据应用场景动态控制索引构建应用的资金,大大降低了原有链路的开销。

基于开源软件 Vectordbbench,带有 MiLVUS 23.0 表示评估。

测试环境:1 个节点,80 个内核,376 GB 内存)。

在最终功能结果方面,ByteHouse 团队基于业界最新的 Vectordbbench 测试资料进行了测试,并在 Cohere 1M 规范测试数据集上,Recall 98 可以达到与专用向量数据库类似的功能。 在召回95以上的情况下,QPS可以达到2600以上,P99延迟在15ms左右,具有行业领先优势。

性能优化一直是Bytehouse Center满足数据处理和分析需求的目标之一。 不仅是向量检索技术,流程不断发展创新,字节屋在查询分析、数据导入等多个方面也进行了极致优化,并取得了显著的性能提升,在降本增效的基础上,持续协助企业更好地实现数据驱动的加速解决效率。

相似文章

    如何升级字节之家ClickHouse网关的性能?

    随着数字化转型的加速,企业面临着收集 处理和分析海量数据的挑战。ClickHouse因其分析速度快 性能高而被开发者广泛使用。作为客户端和数据库之间的桥梁,网关在性能层面也起着关键作用。一个好的网关不仅可以提高性能和可用性,还可以为系统提供安全性和可管理性。虽然主流的ClickHouse网关chpr...

    如何实现DataLeap数据测试平台?

    随着短期生态的扩展和业务的发展,数据在业务中承担的决策场景越来越多样化,一些数据已经应用于资产损失 客户投诉高等高风险场景,因此对数据质量的要求,尤其是高风险场景,要求非常高。许多 QA 数据 BP 团队在保障过程中面临以下痛点 .没有标准化流程,管控能力薄弱 研发QA人力比例高达 ,因此QA采用分...

    美的建筑科技携手火山引擎,探索智慧园区新生态

    近日,美的建筑科技与火山引擎发布了美的iBuilding Volcano Engine联合打造的智慧园区解决方案,将美的建筑科技软硬件一体化服务与火山引擎云技术底座深度融合,对上海抖音集团江湾城新办公园区进行智能化改造,打造绿色低碳园区新地标。共创解决方案,云 边 端 能力相辅相成。智能建筑中产品体...

    美的建筑科技携手火山引擎,探索智慧园区新生态

    在 双碳 目标的背景下,当前城市建筑高效 低碳 智能化发展已成为大势所趋。然而,智慧建筑的真正落地仍面临诸多困难,如产业链长 参与方多,各环节相互隔离,缺乏协调。月日,继上海抖音集团江湾城办公新园智能化改造后,美的建筑科技与火山引擎沉淀经验 深化合作,联合举办一流发布会发布美的iBuilding V...

    伊利携手Volcano Engine圆满落幕“健康AI”生态创新大赛

    健康 AI 中老年健脑营养解决方案 数字化 智能化营养健康服务 AIGC健康共同体计划.随着 健康 AI 生态创新大赛的启动,健康 AI 等蕴含科技能量 赋能健康产业的创新解决方案即将涌现。答案正在慢慢浮出水面。月日,由伊利集团与火山引擎联合主办的 健康 AI 生态创新大赛圆满落下帷幕,上海博思腾网...