快速开始

DashText，是向量检索服务DashVector推荐使用的稀疏向量编码器（Sparse Vector Encoder），DashText可通过BM25算法将原始文本转换为稀疏向量（Sparse Vector）表达，通过DashText可大幅度简化使用DashVector[关键词感知检索]能力。

说明

需要使用您的api-key替换示例中的YOUR_API_KEY、您的Cluster Endpoint替换示例中的YOUR_CLUSTER_ENDPOINT，代码才能正常运行。
本示例仅对Sparse Vector进行功能演示，请根据实际情况设置您的向量维度。简化起见，本文示例代码中将向量（Dense Vector）维度设置为4。

Step1. 创建支持Sparse Vector的Collection

Python示例

import dashvector

client = dashvector.Client(api_key='YOUR_API_KEY', endpoint='YOUR_CLUSTER_ENDPOINT')

assert client

ret = client.create('hybrid_collection', dimension=4, metric='dotproduct')

assert ret

collection = client.get('hybrid_collection')

assert collection

Java示例

import com.aliyun.dashvector.DashVectorClient;

import com.aliyun.dashvector.DashVectorCollection;

import com.aliyun.dashvector.models.requests.CreateCollectionRequest;

import com.aliyun.dashvector.models.responses.Response;

import com.aliyun.dashvector.proto.CollectionInfo;

DashVectorClient client =

  new DashVectorClient("YOUR_API_KEY", "YOUR_CLUSTER_ENDPOINT");

CreateCollectionRequest request = CreateCollectionRequest.builder()

            .name("hybrid_collection")

            .dimension(4)

            .metric(CollectionInfo.Metric.dotproduct)

            .dataType(CollectionInfo.DataType.FLOAT)

            .build();

Response<Void> response = client.create(request);

System.out.println(response);

DashVectorCollection collection = client.get("hybrid_collection");

重要

仅内积度量（metric='dotproduct'）支持Sparse Vector功能

Step2. 创建SparseVectorEncoder

使用内置Encoder

Python示例

from dashtext import SparseVectorEncoder

encoder = SparseVectorEncoder.default()

Java示例

import com.aliyun.dashtext.encoder.SparseVectorEncoder;

SparseVectorEncoder encoder = SparseVectorEncoder.getDefaultInstance();

说明

内置Encoder使用中文Wiki语料进行训练，采用Jieba进行中文分词

基于自有语料创建Encoder

Python示例

from dashtext import SparseVectorEncoder

encoder = SparseVectorEncoder()

# （全部）自有语料

corpus = [

    "向量检索服务DashVector基于阿里云自研的高效向量引擎Proxima内核，提供具备水平拓展能力的云原生、全托管的向量检索服务",

    "DashVector将其强大的向量管理、向量查询等多样化能力，通过简洁易用的SDK/API接口透出，方便被上层AI应用迅速集成",

    "从而为包括大模型生态、多模态AI搜索、分子结构分析在内的多种应用场景，提供所需的高效向量检索能力",

    "简单灵活、开箱即用的SDK，使用极简代码即可实现向量管理",

    "自研向量相似性比对算法，快速高效稳定服务",

    "Schema-free设计，通过Schema实现任意条件下的组合过滤查询"

]

# 基于自有语料训练Encoder

encoder.train(corpus)

Java示例

import com.aliyun.dashtext.encoder.SparseVectorEncoder;

import java.util.*;

SparseVectorEncoder encoder = new SparseVectorEncoder();

//（全部）自有语料

List<String> corpus = Arrays.asList(

  "向量检索服务DashVector基于阿里云自研的高效向量引擎Proxima内核，提供具备水平拓展能力的云原生、全托管的向量检索服务",

  "DashVector将其强大的向量管理、向量查询等多样化能力，通过简洁易用的SDK/API接口透出，方便被上层AI应用迅速集成",

  "从而为包括大模型生态、多模态AI搜索、分子结构分析在内的多种应用场景，提供所需的高效向量检索能力",

  "简单灵活、开箱即用的SDK，使用极简代码即可实现向量管理",

  "自研向量相似性比对算法，快速高效稳定服务",

  "Schema-free设计，通过Schema实现任意条件下的组合过滤查询"

);

// 基于自有语料训练Encoder

encoder.train(corpus);

说明

内置Encoder可直接使用，无需使用原始语料进行训练，使用起来更加方便，同时泛化能力较强。但面对原始语料中专业术语较多等场景，准确性偏弱
基于自有语料创建Encoder，需要预先根据（全部）原始语料进行训练，准确性较高，自有语料创建Encoder具体使用可参考进阶使用
用户需根据自身业务场景和需求来选择Encoder，对于特定领域（大量专属词汇）的场景推荐基于自有语料创建Encoder

Step3. 插入带有Sparse Vector的Doc

Python示例

from dashvector import Doc

document = "向量检索服务DashVector基于阿里云自研的高效向量引擎Proxima内核，提供具备水平拓展能力的云原生、全托管的向量检索服务。"

doc_sparse_vector = encoder.encode_documents(document)

print(doc_sparse_vector)

# 基于内置Encoder的output:

# {380823393: 0.7262431704356519, 414191989: 0.7262431704356519, 565176162: 0.7262431704356519, 904594806: 0.7262431704356519, 1005505802: 0.7262431704356519, 1169440797: 0.8883757984694465, 1240922502: 0.7262431704356519, 1313971048: 0.7262431704356519, 1317077351: 0.7262431704356519, 1490140460: 0.7262431704356519, 1574737055: 0.7262431704356519, 1760434515: 0.7262431704356519, 2045788977: 0.8414146776926797, 2141666983: 0.7262431704356519, 2509543087: 0.7262431704356519, 3180265193: 0.7262431704356519, 3845702398: 0.7262431704356519, 4106887295: 0.7262431704356519}

collection.insert(Doc(

    id='A',

    vector=[0.1, 0.2, 0.3, 0.4],

    sparse_vector=doc_sparse_vector

))

Java示例

String document = "向量检索服务DashVector基于达摩院自研的高效向量引擎Proxima内核，提供具备水平拓展能力的云原生、全托管的向量检索服务。";

Map<Long, Float> sparseVector = encoder.encodeDocuments(document);

System.out.println(sparseVector);

// 基于内置Encoder的output:

// {380823393: 0.7262431704356519, 414191989: 0.7262431704356519, 565176162: 0.7262431704356519, 904594806: 0.7262431704356519, 1005505802: 0.7262431704356519, 1169440797: 0.8883757984694465, 1240922502: 0.7262431704356519, 1313971048: 0.7262431704356519, 1317077351: 0.7262431704356519, 1490140460: 0.7262431704356519, 1574737055: 0.7262431704356519, 1760434515: 0.7262431704356519, 2045788977: 0.8414146776926797, 2141666983: 0.7262431704356519, 2509543087: 0.7262431704356519, 3180265193: 0.7262431704356519, 3845702398: 0.7262431704356519, 4106887295: 0.7262431704356519}

Vector vector = Vector.builder().value(Arrays.asList(0.1f, 0.2f, 0.3f, 0.4f)).build();

// 构建带有Sparse Vector的Doc

Doc doc = Doc.builder()

  .id("28")

  .sparseVector(sparseVector)

  .vector(vector)

  .build();

// 插入带有Sparse Vector的Doc

Response<Void> response = collection.insert(InsertDocRequest.builder().doc(doc).build());

Step4. 关键词感知的向量检索

Python示例

query = "什么是向量检索服务？"

sparse_vector = encoder.encode_queries(query)

print(sparse_vector)

# 基于内置Encoder的output:

# {1169440797: 0.2947158712590364, 2045788977: 0.7052841287409635}

docs = collection.query(

    vector=[0.1, 0.1, 0.1, 0.1],

    sparse_vector=sparse_vector

)

Java示例

String query = "什么是向量检索服务？";

Map<Long, Float> sparseVector = encoder.encodeQueries(query);

System.out.println(sparseVector);

// 基于内置Encoder的output:

// {1169440797: 0.2947158712590364, 2045788977: 0.7052841287409635}

Vector vector = Vector.builder().value(Arrays.asList(0.1f, 0.2f, 0.3f, 0.4f)).build();

// 构建QueryDocRequest

QueryDocRequest request = QueryDocRequest.builder()

  .vector(vector)

  .sparseVector(sparseVector)

  .topk(100)

  .includeVector(true)

  .build();

Response<List<Doc>> response = collection.query(request);

System.out.println(response);

Step5. 基于权重的关键词+语义检索

Python示例

from dashtext import combine_dense_and_sparse

query = "什么是向量检索服务？"

sparse_vector = encoder.encode_queries(query)

# 权重因子

alpha = 0.7

dense_vector = [0.1, 0.1, 0.1, 0.1]

scaled_dense_vector, scaled_sparse_vector = combine_dense_and_sparse(dense_vector, sparse_vector, alpha)

docs = collection.query(

    vector=scaled_dense_vector,

    sparse_vector=scaled_sparse_vector

)

Java示例

String query = "什么是向量检索服务？";

Map<Long, Float> sparseVector = encoder.encodeQueries(query);

System.out.println(sparse_vector);

// 基于内置Encoder的output:

// {1169440797: 0.2947158712590364, 2045788977: 0.7052841287409635}

Vector denseVector = Vector.builder().value(Arrays.asList(0.1f, 0.2f, 0.3f, 0.4f)).build();

// 通过alpha因子调整稠密向量和稀疏向量

float alpha = 0.1;

sparse_vector.forEach((key, value) -> sparse_vector.put(key, value * (1 - alpha)));

denseVector = Vector.builder().value(

            denseVector.getValue().stream().map(number -> number.floatValue() * alpha).collect(Collectors.toList())

    ).build();

// 构建QueryDocRequest

QueryDocRequest request = QueryDocRequest.builder()

  .vector(denseVector)

  .sparseVector(sparseVector)

  .topk(100)

  .includeVector(true)

  .build();

Response<List<Doc>> response = collection.query(request);

System.out.println(response);

说明

参数alpha是控制稠密向量距离和稀疏向量距离加权的权重因子，alpha=0.0表示只采用稀疏向量进行距离度量，alpha=1.0表示只采用稠密向量进行距离度量。

API参考

更多DashText API详情可参考：

Python SDK：https://pypi.org/project/dashtext/

DashText-快速开始的更多相关文章

快速构建H5单页面切换骨架
在Web App和Hybrid App横行的时代,为了拥有更好的用户体验,单页面应用顺势而生,单页面应用简称`SPA`,即Single Page Application,就是只有一个HTML页面的应用 ...
.net core快速上手
2014年11月12日的Connect ();开发者活动上宣布将.NET堆栈基于MIT协议开源,并且提供开源保证,托管在Github上.当时的版本与最终目标相距甚远,然而有一点可以肯定的是,这是一个与 ...
Web Api 入门实战（快速入门+工具使用+不依赖IIS）
平台之大势何人能挡? 带着你的Net飞奔吧!:http://www.cnblogs.com/dunitian/p/4822808.html 屁话我也就不多说了,什么简介的也省了,直接简单概括+demo ...
SignalR快速入门 ~ 仿QQ即时聊天，消息推送，单聊，群聊，多群公聊（基础=》提升）
SignalR快速入门 ~ 仿QQ即时聊天,消息推送,单聊,群聊,多群公聊(基础=>提升,5个Demo贯彻全篇,感兴趣的玩才是真的学) 官方demo:http://www.asp.net/si ...
快速搭建springmvc+spring data jpa工程
一.前言这里简单讲述一下如何快速使用springmvc和spring data jpa搭建后台开发工程,并提供了一个简单的demo作为参考. 二.创建maven工程 http://www.cnblo ...
如何快速优化手游性能问题？从UGUI优化说起
WeTest 导读本文作者从自身多年的Unity项目UI开发及优化的经验出发,从UGUI,CPU,GPU以及unity特有资源等几个维度,介绍了unity手游性能优化的一些方法. 在之前的文 ...
Photoshop将普通照片快速制作二次元漫画风格效果
今天为大家分享Photoshop将普通照片快速制作二次元漫画风格效果,教程很不错,对于喜欢漫画的朋友可以参考本文,希望能对大家有所帮助! 一提到日本动画电影,大家第一印象肯定是宫崎骏,但是日本除了宫崎 ...
CRL快速开发框架系列教程十三(嵌套查询)
本系列目录 CRL快速开发框架系列教程一(Code First数据表不需再关心) CRL快速开发框架系列教程二(基于Lambda表达式查询) CRL快速开发框架系列教程三(更新数据) CRL快速开发框 ...
CRL快速开发框架系列教程十二(MongoDB支持)
本系列目录 CRL快速开发框架系列教程一(Code First数据表不需再关心) CRL快速开发框架系列教程二(基于Lambda表达式查询) CRL快速开发框架系列教程三(更新数据) CRL快速开发框 ...
CRL快速开发框架系列教程十一(大数据分库分表解决方案)
本系列目录 CRL快速开发框架系列教程一(Code First数据表不需再关心) CRL快速开发框架系列教程二(基于Lambda表达式查询) CRL快速开发框架系列教程三(更新数据) CRL快速开发框 ...

随机推荐

15. 从0开始学ARM-位置无关码
@ 目录十九.位置无关码一.为什么需要位置无关码? 1. exynos 4412启动流程二.怎么实现位置无关码? 1. 什么是<编译地址>?什么是<运行地址>? 2. 举 ...
【Docker学习教程系列】7-如何将本地的Docker镜像发布到阿里云
在上一篇中,我们使用docker commit 命令,创建了一个带有vim的Ubuntu镜像.那么怎么将这个镜像分享出去呢?本文就来讲解如何将本地的docker镜像发布到阿里云上. 本文主要内容: 1 ...
Argo CD初体验
什么是 Argo CD? Argo CD 是一个声明式的 GitOps 持续交付工具,用于 Kubernetes 集群.它通过持续监控 Git 仓库中的 Kubernetes 资源配置文件,将这些配置 ...
C++ weak_ptr除了解决循环引用还能做什么？
C++: weak_ptr到底有什么用? 很多人对std::weak_ptr的认识只是不增加std::shared_ptr的引用计数,可以用来解决std::shared_ptr可能造成的循环引用问题. ...
CCIA数安委等组织发布PIA星级标识名单，合合信息再次通过数据安全领域权威评估
CCIA数安委等组织发布PIA星级标识名单,合合信息再次通过数据安全领域权威评估近期,"中国网络安全产业联盟(CCIA)数据安全工作委员会"."数据安全共同体计划( ...
DOM – MutationObserver
介绍它和 IntersectionObserver, ResizeObserver 差不多, 都是观察 element 变化的. 它可以观察元素的 attribute 增加, 移除, 修改, app ...
Naive UI 2.38.1
https://www.naiveui.com/zh-CN/os-theme/docs/i18n 配置字体 Naive UI 可以和 vfonts 配合,你可以简单的引入 vfonts 中的字体,包含 ...
BOOST库将源码作交叉编译书籍下载
好记性不如烂笔头,BOOST库的移植,我也记录一下. 1. BOOST库版本1.66.0 下载地址, 附书籍C++ BOOST库开发指南: https://download.csdn.net/dow ...
2024 ByteCTF
ByteCTF 极限逃脱题目描述:本题需要通过动态调试分析出要输入的内容,可能在某些地方会有提示出现. 这是一个IOS逆向,因为没有设备只能静态分析流程和安卓逆向大概一致解压拖进ida 提示输入 ...
[OI] 欢夏！邪龙？马拉车！
标题来自原神算法概述 Manacher 算法用途:寻找回文串,最板子的情况下用于字符串的回文子串计数给定一个字符串 \(S\),求出它全部的回文子串容易想到一种暴力的 \(n^{2}\) 做法 ...

DashText-快速开始

快速开始

Step1. 创建支持Sparse Vector的Collection

Step2. 创建SparseVectorEncoder

使用内置Encoder

基于自有语料创建Encoder

Step3. 插入带有Sparse Vector的Doc

Step4. 关键词感知的向量检索

Step5. 基于权重的关键词+语义检索

API参考

DashText-快速开始的更多相关文章

随机推荐

热门专题