4向量检索引擎4数据结构考虑到显存的价格远高于内存,因此我们在设计方案的过程中,尽可能将数据存储在内存当中,仅将需要计算的数据存储在显存当中内存中保存了所有的标量数据,数据按列存储,通过的所有字段信息,数据按列存储具备较高的灵活性和可扩展性,同时也更容易进行数据压缩和计算加速
针对需要用 牙买加 WhatsApp 号码列表 于过滤的标量字段,在内存中构造了倒排索引,倒排链中保存了对应的原始数据位置索引信息,内存数据结构如下图所示:显存中保存了所有的向量数据,数据位置索引与内存中的数据一一对应,可以通过位置索引快速获取某条数据的向量信息,如下图所示:4检索流程F暴力检索初始化阶段,在内存中构建用于标量过滤的倒排索引,同时,将向量数据从内存拷贝到显存,通过位置索引进行关联
标量过滤标量过滤过程在内存中进行,通过内存中的倒排索引,可以快速得到符合某个标量过滤条件的原始数据位置索引列表,通过倒排索引的求交、求并等逻辑,可以支持多个标量过滤条件的与、或关系组合,最终,得到所有符合条件的位置索引列表相似度计算相似度计算在中进行,通过上一步标量过滤得到的位置索引列表,从显存中读取符合条件的候选向量数据,然后使用常见的向量距离算法计算最相似的个向量,将检索结果下表列表回传给
|