本教程演示如何使用向量检索服务（DashVector），结合LLM大模型等能力，来打造基于垂直领域专属知识等问答服务。其中LLM大模型能力，以及文本向量生成等能力，这里基于灵积模型服务上的通义千问 API以及Embedding API来接入。

背景及实现思路

大语言模型（LLM）作为自然语言处理领域的核心技术，具有丰富的自然语言处理能力。但其训练语料库具有一定的局限性，一般由普适知识、常识性知识，如维基百科、新闻、小说，和各种领域的专业知识组成。导致 LLM 在处理特定领域的知识表示和应用时存在一定的局限性，特别对于垂直领域内，或者企业内部等私域专属知识。

实现专属领域的知识问答的关键，在于如何让LLM能够理解并获取存在于其训练知识范围外的特定领域知识。同时可以通过特定Prompt构造，提示LLM在回答特定领域问题的时候，理解意图并根据注入的领域知识来做出回答。在通常情况下，用户的提问是完整的句子，而不像搜索引擎只输入几个关键字。这种情况下，直接使用关键字与企业知识库进行匹配的效果往往不太理想，同时长句本身还涉及分词、权重等处理。相比之下，倘若我们把提问的文本，和知识库的内容，都先转化为高质量向量，再通过向量检索将匹配过程转化为语义搜索，那么提取相关知识点就会变得简单而高效。

接下来我们将基于中文突发事件语料库（CEC Corpus）演示关于突发事件新闻报道的知识问答。

整体流程

主要分为三个阶段：

本地知识库的向量化。通过文本向量模型将其转化为高质量低维度的向量数据，再写入DashVector向量检索服务。这里数据的向量化我们采用了灵积模型服务上的Embedding API实现。

相关知识点的提取。将提问文本向量化后，通过 DashVector 提取相关知识点的原文。

构造 Prompt 进行提问。将相关知识点作为“限定上下文+提问” 一起作为prompt询问通义千问。

前提准备

1. API-KEY 和 Cluster准备

开通灵积模型服务，并获得 API-KEY。请参考：开通DashScope并创建API-KEY。

开通DashVector向量检索服务，并获得 API-KEY。请参考：DashVector API-KEY管理。

开通DashVector向量检索服务，并创建Cluster。

获取Cluster的Endpoint，Endpoint获取请查看 Cluster详情。

说明

灵积模型服务DashScope的API-KEY与DashVector的API-KEY是独立的，需要分开获取。

2. 环境准备

说明

需要提前安装 Python3.7 及以上版本，请确保相应的 python 版本。

pip3 install dashvector dashscope

3. 数据准备

git clone https://github.com/shijiebei2009/CEC-Corpus.git

搭建步骤

说明

本教程所涉及的 your-xxx-api-key 以及 your-xxx-cluster-endpoint，均需要替换为您自己的API-KAY及CLUSTER_ENDPOINT后，代码才能正常运行。

1. 本地知识库的向量化

CEC-Corpus 数据集包含 332 篇突发事件的新闻报道的语料和标注数据，这里我们只需要提取原始的新闻稿文本，并将其向量化后入库。文本向量化的教程可以参考《基于向量检索服务与灵积实现语义搜索》。创建embedding.py文件，并将如下示例代码复制到embedding.py中：

点击查看代码

import os

import dashscope

from dashscope import TextEmbedding

from dashvector import Client, Doc

def prepare_data(path, batch_size=25):

    batch_docs = []

    for file in os.listdir(path):

        with open(path + '/' + file, 'r', encoding='utf-8') as f:

            batch_docs.append(f.read())

            if len(batch_docs) == batch_size:

                yield batch_docs

                batch_docs = []

    if batch_docs:

        yield batch_docs

def generate_embeddings(news):

    rsp = TextEmbedding.call(

        model=TextEmbedding.Models.text_embedding_v1,

        input=news

    )

    embeddings = [record['embedding'] for record in rsp.output['embeddings']]

    return embeddings if isinstance(news, list) else embeddings[0]

if __name__ == '__main__':

    dashscope.api_key = '{your-dashscope-api-key}'

    # 初始化 dashvector client

    client = Client(

      api_key='{your-dashvector-api-key}',

      endpoint='{your-dashvector-cluster-endpoint}'

    )

    # 创建集合：指定集合名称和向量维度, text_embedding_v1 模型产生的向量统一为 1536 维

    rsp = client.create('news_embedings', 1536)

    assert rsp

    # 加载语料

    id = 0

    collection = client.get('news_embedings')

    for news in list(prepare_data('CEC-Corpus/raw corpus/allSourceText')):

        ids = [id + i for i, _ in enumerate(news)]

        id += len(news)

        vectors = generate_embeddings(news)

        # 写入 dashvector 构建索引

        rsp = collection.upsert(

            [

                Doc(id=str(id), vector=vector, fields={"raw": doc})

                for id, vector, doc in zip(ids, vectors, news)

            ]

        )

        assert rsp

在示例中，我们将 Embedding 向量和新闻报道的文稿（作为raw字段）一起存入DashVector向量检索服务中，以便向量检索时召回原始文稿。

2. 知识点的提取

将 CEC-Corpus 数据集所有新闻报道写入DashVector服务后，就可以进行快速的向量检索。实现这个检索，我们同样将提问的问题进行文本向量化后，再在DashVector服务中检索最相关的知识点，也就是相关新闻报道。创建search.py文件，并将如下示例代码复制到search.py文件中。

点击查看代码

from dashvector import Client

from embedding import generate_embeddings

def search_relevant_news(question):

    # 初始化 dashvector client

    client = Client(

      api_key='{your-dashvector-api-key}',

      endpoint='{your-dashvector-cluster-endpoint}'

    )

    # 获取刚刚存入的集合

    collection = client.get('news_embedings')

    assert collection

    # 向量检索：指定 topk = 1

    rsp = collection.query(generate_embeddings(question), output_fields=['raw'],

                           topk=1)

    assert rsp

    return rsp.output[0].fields['raw']

3. 构造 Prompt 向LLM(通义千问)提问

在通过提问搜索到相关的知识点后，我们就可以将 “提问 + 知识点” 按照特定的模板作为 prompt 向LLM发起提问了。在这里我们选用的LLM是通义千问，这是阿里巴巴自主研发的超大规模语言模型，能够在用户自然语言输入的基础上，通过自然语言理解和语义分析，理解用户意图。可以通过提供尽可能清晰详细的指令（prompt)，来获取更符合预期的结果。这些能力都可以通过通义千问API来获得。

具体我们这里设计的提问模板格式为：请基于我提供的内容回答问题。内容是{}，我的问题是{}，当然您也可以自行设计合适的模板。创建answer.py，并将如下示例代码复制到answer.py中。

点击查看代码

from dashscope import Generation

def answer_question(question, context):

    prompt = f'''请基于```内的内容回答问题。"

	```

	{context}

	```

	我的问题是：{question}。

    '''

    rsp = Generation.call(model='qwen-turbo', prompt=prompt)

    return rsp.output.text

知识问答

做好这些准备工作以后，就可以对LLM做与具体知识点相关的提问了。比如在 CEC-Corpus 新闻数据集里，有如下一篇报道。因为整个新闻数据集已经在之前的步骤里，转换成向量入库了，我们现在就可以把这个新闻报道作为一个知识点，做出针对性提问：海南安定追尾事故，发生在哪里？原因是什么？人员伤亡情况如何？，并查看相应答案。

创建run.py文件，并将如下示例代码复制到run.py文件中。

点击查看代码

import dashscope

from search import search_relevant_news

from answer import answer_question

if __name__ == '__main__':

    dashscope.api_key = '{your-dashscope-api-key}'

    question = '海南安定追尾事故，发生在哪里？原因是什么？人员伤亡情况如何？'

    context = search_relevant_news(question)

    answer = answer_question(question, context)

    print(f'question: {question}\n' f'answer: {answer}')

可以看到，基于DashVector作为向量检索的底座，LLM大模型的知识范畴得到了针对性的扩展，并且能够对于专属的特定知识领域做出正确的回答。

写在最后

从本文的范例中，可以看到DashVector作为一个独立的向量检索服务，提供了开箱即用的强大向量检索服务能力，这些能力和各个AI模型结合，能够衍生多样的AI应用的可能。这里的范例中，LLM大模型问答，以及文本向量生成等能力，都是基于灵积模型服务上的通义千问API和Embedding API来接入的，在实际操作中，相关能力同样可以通过其他三方服务，或者开源模型社区，比如ModelScope上的各种开源LLM模型来实现。

免费体验阿里云高性能向量检索服务：https://www.aliyun.com/product/ai/dashvector

DashVector x 通义千问大模型：打造基于专属知识的问答服务的更多相关文章

阿里版ChatGPT：通义千问pk文心一言
随着 ChatGPT 热潮卷起来,百度发布了文心一言.Google 发布了 Bard,「阿里云」官方终于也宣布了,旗下的 AI 大模型"通义千问"正式开启测试! 申请地址:http ...
DeepSpeed Chat: 一键式RLHF训练，让你的类ChatGPT千亿大模型提速省钱15倍
DeepSpeed Chat: 一键式RLHF训练,让你的类ChatGPT千亿大模型提速省钱15倍 1. 概述近日来,ChatGPT及类似模型引发了人工智能(AI)领域的一场风潮. 这场风潮对数字世 ...
华为高级研究员谢凌曦：下一代AI将走向何方？盘古大模型探路之旅
摘要:为了更深入理解千亿参数的盘古大模型,华为云社区采访到了华为云EI盘古团队高级研究员谢凌曦.谢博士以非常通俗的方式为我们娓娓道来了盘古大模型研发的"前世今生",以及它背后的艰难 ...
千亿参数开源大模型 BLOOM 背后的技术
假设你现在有了数据,也搞到了预算,一切就绪,准备开始训练一个大模型,一显身手了,"一朝看尽长安花"似乎近在眼前 -- 且慢!训练可不仅仅像这两个字的发音那么简单,看看 BLOOM ...
AI大模型学习了解
# 百度文心上线时间:2019年3月官方介绍:https://wenxin.baidu.com/ 发布地点: 参考资料: 2600亿!全球最大中文单体模型鹏城-百度·文心发布 # 华为盘古上线时 ...
无插件的大模型浏览器Autodesk Viewer开发培训-武汉-2014年8月28日 9:00 – 12:00
武汉附近的同学们有福了,这是全球第一次关于Autodesk viewer的教室培训. :) 你可能已经在各种场合听过或看过Autodesk最新推出的大模型浏览器,这是无需插件的浏览器模型,支持几十种数 ...
PowerDesigner 学习：十大模型及五大分类
个人认为PowerDesigner 最大的特点和优势就是1)提供了一整套的解决方案,面向了不同的人员提供不同的模型工具,比如有针对企业架构师的模型,有针对需求分析师的模型,有针对系统分析师和软件架构师 ...
PowerDesigner 15学习笔记：十大模型及五大分类
个人认为PowerDesigner 最大的特点和优势就是1)提供了一整套的解决方案,面向了不同的人员提供不同的模型工具,比如有针对企业架构师的模型,有针对需求分析师的模型,有针对系统分析师和软件架构师 ...
文心大模型api使用
文心大模型api使用首先,我们要获取硅谷社区的连个key 复制两个api备用获取Access Token 获取access_token示例代码之后就会输出作文创作作文创作:作文创作接口基于文 ...
大数据实时处理-基于Spark的大数据实时处理及应用技术培训
随着互联网.移动互联网和物联网的发展,我们已经切实地迎来了一个大数据的时代.大数据是指无法在一定时间内用常规软件工具对其内容进行抓取.管理和处理的数据集合,对大数据的分析已经成为一个非常重要且紧迫的 ...

随机推荐

ArkUI中的线程和看门狗机制
一.前言本文主要分析ArkUI中涉及的线程和看门狗机制. 二.ArkUI中的线程应用Ability首次创建界面的流程大致如下: 说明: • AceContainer是一个容器类,由前端.任务执行器 ...
SQL PRIMARY KEY 约束- 唯一标识表中记录的关键约束
SQL NOT NULL 约束 SQL NOT NULL 约束用于强制确保列不接受 NULL 值.这意味着该字段始终包含一个值,而不允许插入新记录或更新记录时不提供此字段的值. 在 CREATE TA ...
探索“智”感生活，HMS Core线上Codelabs挑战赛第4期开始！
HMS Core线上Codelabs挑战赛第4期正式开始!我们向所有实践力超强.创新力满满的开发者发出邀请,用你的超级"码"力,解锁更多应用价值! 生活里,我们被手机"秒 ...
selenium 关闭浏览--- close 与 quit 的区别
selenium 关闭浏览器,有两种方式 close quit 既然都是关闭浏览器,为什么要写两种方式? 区别 close: close只是关闭浏览器,但是不会退出 webdriver quit: q ...
Python删除文件、文件夹----os
使用 os 删除文件 import os '''删除文件语法: os.unlink(path) 示例: 删除 b 文件夹中的 12.txt ''' os.unlink('b/12.txt') ...
最后一站qsnctfwp
题目附件图片一: 图片二: 根据图片一判断出位置为南昌市,地铁线路为4号线根据题目名判断出搜索范围为白马山站或鱼尾洲站通过百度地图全景地图查看两站环境,发现白马山站以工业区为主,鱼尾洲站以住宅区 ...
【笔记】Java相关大杂烩①
[笔记]Java相关大杂烩 Java 程序的执行流程是? *.java 文件-->*.class 文件-->类装载器-->字节码校验器-->解释器-->操作系统平台 Ja ...
业界首个机密计算容器运行时—Inclavare Containers正式进入CNCF！
简介: Inclavare Containers 通过云原生计算基金会(CNCF)TOC 投票正式成为 CNCF 官方沙箱项目. 作者|彦荣 2021 年 9月 15 日,Inclavare C ...
WPF 给 Pen 的 DashStyle 设置 0 0 的虚线数组将会让渲染线程消耗大量 CPU 资源
给 WPF 的 Pen 的 DashStyle 属性设置 0 0 的虚线,在绘制几何图形时,绘制的几何图形的尺寸将关联渲染线程所使用的 CPU 资源.大约在周长大于 500 时,将可以从任务管理器上看 ...
dotnet C# 反射扫描程序集所有类型会不会触发类型静态构造函数
在 dotnet 里面,有很多框架都喜欢扫描程序集进行初始化逻辑,在扫描程序集的所有类型的时候,相当于碰到所有类型.而某个类型的静态构造函数将会在某个类型被使用之前被 CLR 调用,那么扫描类型是否会 ...

DashVector x 通义千问大模型：打造基于专属知识的问答服务

背景及实现思路

整体流程

前提准备

搭建步骤

知识问答

写在最后

DashVector x 通义千问大模型：打造基于专属知识的问答服务的更多相关文章

随机推荐

热门专题