分组向量检索

DashVector · 2024-11-25 13:49:41 · 401 次点击 · 预计阅读时间 3 分钟 · 大约8小时之前开始浏览

这是一个创建于 2024-11-25 13:49:41 的文章，其中的信息可能已经有所发展或是发生改变。

第一次，站长亲自招 Gopher 了>>>

本文介绍如何在向量检索时将结果按照字段值进行分组返回。

背景介绍

在向量检索的实际应用中，有些场景需要将向量检索的结果分组返回。例如：

在RAG中，一篇文档往往需要拆分为多个段落，每个段落生成一个向量存入DashVector。在向量检索时，为了结果的多样性，不希望所有结果都来自同一篇文档的段落，而是希望结果返回多篇文档，并且每篇文档下仅返回最相似的若干个段落。
在商品图像检索时，每个商品通常有多个商品图片，每个图片生成一个向量存入DashVector。在向量检索时，为了结果的多样性，不希望所有结果都是同一个商品的图片，而是希望返回多样化商品，并且每个商品下仅返回最相似的若干个图片。

向量检索服务DashVector支持分组向量检索，对于上面的两个场景可以通过分组检索Doc接口分别设置group_by_field为"文档ID"和"商品ID"，然后执行分组向量检索。

使用示例

前提条件

已创建Cluster
已获得API-KEY
已安装最新版SDK

插入带有Field的数据

说明

需要使用您的api-key替换示例中的 YOUR_API_KEY、您的Cluster Endpoint替换示例中的YOUR_CLUSTER_ENDPOINT，代码才能正常运行。

import dashvector
import numpy as np

client = dashvector.Client(
    api_key='YOUR_API_KEY',
    endpoint='YOUR_CLUSTER_ENDPOINT'
)
ret = client.create(
    name='group_by_demo',
    dimension=4,
    fields_schema={'document_id': str, 'chunk_id': int}
)
assert ret

collection = client.get(name='group_by_demo')

ret = collection.insert([
    ('1', np.random.rand(4), {'document_id': 'paper-01', 'chunk_id': 1, 'content': 'xxxA'}),
    ('2', np.random.rand(4), {'document_id': 'paper-01', 'chunk_id': 2, 'content': 'xxxB'}),
    ('3', np.random.rand(4), {'document_id': 'paper-02', 'chunk_id': 1, 'content': 'xxxC'}),
    ('4', np.random.rand(4), {'document_id': 'paper-02', 'chunk_id': 2, 'content': 'xxxD'}),
    ('5', np.random.rand(4), {'document_id': 'paper-02', 'chunk_id': 3, 'content': 'xxxE'}),
    ('6', np.random.rand(4), {'document_id': 'paper-03', 'chunk_id': 1, 'content': 'xxxF'}),
])
assert ret

执行分组向量检索

ret = collection.query_group_by(
    vector=[0.1, 0.2, 0.3, 0.4],
    group_by_field='document_id',  # 按document_id字段的值分组
    group_count=2,  # 返回2个分组
    group_topk=2,   # 每个分组最多返回2个doc
)
# 判断是否成功
if ret:
    print('query_group_by success')
    print(len(ret))
    print('------------------------')
    for group in ret:
        print('group key:', group.group_id)
        for doc in group.docs:
            prefix = ' -'
            print(prefix, doc)

上面分组检索的示例结果如下：

query_group_by success
4
------------------------
group key: paper-01
 - {"id": "2", "fields": {"document_id": "paper-01", "chunk_id": 2, "content": "xxxB"}, "score": 0.6807}
 - {"id": "1", "fields": {"document_id": "paper-01", "chunk_id": 1, "content": "xxxA"}, "score": 0.4289}
group key: paper-02
 - {"id": "3", "fields": {"document_id": "paper-02", "chunk_id": 1, "content": "xxxC"}, "score": 0.6553}
 - {"id": "5", "fields": {"document_id": "paper-02", "chunk_id": 3, "content": "xxxE"}, "score": 0.4401}

限制说明

重要

group_by_field只能指定新建Collection时通过fields_schema参数定义的Field名称，Schema Free字段不支持分组检索。
group_count和group_topk均为尽力而为参数，实际返回的分组数（group_count）和每个分组的doc数（group_topk）可能少于所设置的值。DashVector会优先保证分组数（group_count）。

过大的group_count和group_topk会增加索引扫描量，从而导致接口耗时增加。当前group_count最大值为64，group_topk最大值为16。

有疑问加站长微信联系（非本文作者））

入群交流（和以上内容无关）：加入Go大咖交流群，或添加微信：liuxiaoyan-s 备注：入群；或加QQ群：692541889

401 次点击

加入收藏微博

收入我的专栏

上一篇：原生鸿蒙HarmonyOS-Chat聊天app应用|ArkTs/ArkUI聊天模板

下一篇：向量检索服务产品规格

python

字段

检索服务

代码

0 回复

暂无回复

添加一条新回复（您需要登录后才能回复没有账号？）

请尽量让自己的回复能够对别人有帮助
支持 Markdown 格式, **粗体**、~~删除线~~、`单行代码`
支持 @ 本站用户；支持表情（输入 : 提示），见 Emoji cheat sheet
图片支持拖拽、截图粘贴等方式上传

分组向量检索

背景介绍

使用示例

前提条件

插入带有Field的数据

执行分组向量检索

限制说明

用户登录

今日阅读排行

一周阅读排行

关注我

分组向量检索

背景介绍

使用示例

前提条件

插入带有Field的数据

执行分组向量检索

限制说明

用户登录

今日阅读排行

一周阅读排行

关注我

给该专栏投稿 写篇新文章

收入到我管理的专栏 新建专栏

给该专栏投稿写篇新文章

收入到我管理的专栏新建专栏