基于无监督预训练语义索引召回：SimCSE、Diffcse

语义索引（可通俗理解为向量索引）技术是搜索引擎、推荐系统、广告系统在召回阶段的核心技术之一。语义索引模型的目标是：给定输入文本，模型可以从海量候选召回库中快速、准确地召回一批语义相关文本。语义索引模型的效果直接决定了语义相关的物料能否被成功召回进入系统参与上层排序，从基础层面影响整个系统的效果。

在召回阶段，最常见的方式是通过双塔模型，学习Document(简写为Doc)的向量表示，对Doc端建立索引，用ANN召回。我们在这种方式的基础上，引入无监督预训练策略，以如下训练数据为例：

我手机丢了，我想换个手机     我想买个新手机，求推荐

学日语软件手机上的          手机学日语的软件

侠盗飞车罪恶都市怎样改车     侠盗飞车罪恶都市怎么改车

SimCSE Diffcse 模型适合缺乏监督数据，但是又有大量无监督数据的匹配和检索场景。

1.基于无监督预训练语义索引召回前置工作

1.1技术方案

双塔模型，采用ERNIE1.0热启，在召回阶段引入 SimCSE 策略。

1.2 评估指标

（1）采用 Recall@1，Recall@5 ，Recall@10 ，Recall@20 和 Recall@50 指标来评估语义索引模型的召回效果。

效果评估

策略	模型	Recall@1	Recall@5	Recall@10	Recall@20	Recall@50
SimCSE	ernie 1.0	42.374	57.505	62.641	67.09	72.331
SimCSE	rocketqa-zh-base-query-encoder	50.108	64.005	68.288	72.306	77.306

1.3 环境依赖和安装说明

环境依赖

python >= 3.6
paddlepaddle >= 2.1.3
paddlenlp >= 2.2
hnswlib >= 0.5.2
visualdl >= 2.2.2
Hnswlib是一种用于高效近似最近邻搜索（ANN）的C ++库，具有可扩展性，适用于多个领域。它基于分层和嵌套分区的概念，在建立索引时通过降低计算复杂度提高查询速度，并且还支持并行查询。
Hnswlib使用一种名为“反演搜索”的技术来搜索最近的邻居，并利用固定大小的倒排列表存储每个向量的相似向量。它还具有可调整参数，可以根据需要来优化精度和速度之间的平衡，例如一次查询返回的最大邻居数、检索阈值等。
由于Hnswlib不依赖于任何特定类型的特征或数据格式，因此它可以应用于各种任务，例如图像检索、自然语言处理等。

1.4 代码结构

以下是本项目主要代码结构及说明：

simcse/

├── model.py # SimCSE 模型组网代码

|—— deploy

    |—— python

        |—— predict.py # PaddleInference

        ├── deploy.sh # Paddle Inference的bash脚本

|—— scripts

    ├── export_model.sh # 动态图转静态图bash脚本

    ├── predict.sh # 预测的bash脚本

    ├── evaluate.sh # 召回评估bash脚本

    ├── run_build_index.sh  # 索引的构建脚本

    ├── train.sh # 训练的bash脚本

|—— ann_util.py # Ann 建索引库相关函数

├── data.py # 无监督语义匹配训练数据、测试数据的读取逻辑

├── export_model.py # 动态图转静态图

├── predict.py # 基于训练好的无监督语义匹配模型计算文本 Pair 相似度

├── evaluate.py # 根据召回结果和评估集计算评估指标

|—— inference.py # 动态图抽取向量

|—— recall.py # 基于训练好的语义索引模型，从召回库中召回给定文本的相似文本

└── train.py # SimCSE 模型训练、评估逻辑

1.5 数据准备

1.5.1数据集说明

我们基于开源的语义匹配数据集构造生成了面向语义索引的训练集、评估集、召回库。

样例数据如下:

睡眠障碍与常见神经系统疾病的关系睡眠觉醒障碍,神经系统疾病,睡眠,快速眼运动,细胞增殖,阿尔茨海默病

城市道路交通流中观仿真研究

城市道路交通流中观仿真研究智能运输系统;城市交通管理;计算机仿真;城市道路;交通流;路径选择

网络健康可信性研究

网络健康可信性研究网络健康信息;可信性;评估模式

脑瘫患儿家庭复原力的影响因素及干预模式雏形 研究

脑瘫患儿家庭复原力的影响因素及干预模式雏形研究脑瘫患儿;家庭功能;干预模式

地西他滨与HA方案治疗骨髓增生异常综合征转化的急性髓系白血病患者近期疗效比较

地西他滨与HA方案治疗骨髓增生异常综合征转化的急性髓系白血病患者近期疗效比较

个案工作 社会化

个案社会工作介入社区矫正再社会化研究——以东莞市清溪镇为例社会工作者;社区矫正人员;再社会化;角色定位

圆周运动加速度角速度

圆周运动向心加速度物理意义的理论分析匀速圆周运动,向心加速度,物理意义,角速度,物理量,线速度,周期

召回集，验证集，测试集与inbatch-negative实验的数据保持一致

1.5.2 数据集下载

数据已经加载/home/aistudio/literature_search_data下了

├── milvus # milvus建库数据集

    ├── milvus_data.csv.  # 构建召回库的数据

├── recall  # 召回（语义索引）数据集

    ├── corpus.csv # 用于测试的召回库

    ├── dev.csv  # 召回验证集

    ├── test.csv # 召回测试集

    ├── train.csv  # 召回训练集

    ├── train_unsupervised.csv # 无监督训练集

├── sort # 排序数据集

    ├── test_pairwise.csv   # 排序测试集

    ├── dev_pairwise.csv   # 排序验证集

    └── train_pairwise.csv  # 排序训练集

!unzip -d /home/aistudio/literature_search_data /home/aistudio/data/data225060/literature_search_data.zip

#数据查看

import csv

def show_data(filename, num_rows=10):

    with open(filename, 'r') as f:

        reader = csv.reader(f)

        header = next(reader)  # 获取表头

        print(header)  # 打印表头

        for i, row in enumerate(reader):

            if i < num_rows:  # 打印前num_rows行数据

                print(row)

            else:

                break

        line = '-' * 100

        print(line)

# show_data('/home/aistudio/literature_search_data/milvus/milvus_data.csv', num_rows=5)

show_data('/home/aistudio/literature_search_data/recall/train_unsupervised.csv', num_rows=5)

show_data('/home/aistudio/literature_search_data/recall/train.csv', num_rows=5)

show_data('/home/aistudio/literature_search_data/recall/dev.csv', num_rows=5)

# show_data('/home/aistudio/literature_search_data/recall/corpus.csv', num_rows=5)

# show_data('/home/aistudio/literature_search_data/recall/test.csv', num_rows=5)

# show_data('/home/aistudio/LCQMC/train.txt', num_rows=5)

# show_data('/home/aistudio/LCQMC/LCQMC.valid.data', num_rows=5)

['煤矸石-污泥基活性炭介导强化污水厌氧消化']

['煤矸石-污泥基活性炭介导强化污水厌氧消化煤矸石', '污泥', '复合基活性炭', '厌氧消化', '直接种间电子传递']

['. 睡眠障碍与常见神经系统疾病的关系']

['睡眠障碍与常见神经系统疾病的关系睡眠觉醒障碍', '神经系统疾病', '睡眠', '快速眼运动', '细胞增殖', '阿尔茨海默病']

['城市道路交通流中观仿真研究']

['城市道路交通流中观仿真研究智能运输系统;城市交通管理;计算机仿真;城市道路;交通流;路径选择']

----------------------------------------------------------------------------------------------------

['从《唐律疏义》看唐代封爵贵族的法律特权\t从《唐律疏义》看唐代封爵贵族的法律特权《唐律疏义》', '封爵贵族', '法律特权']

['宁夏社区图书馆服务体系布局现状分析\t宁夏社区图书馆服务体系布局现状分析社区图书馆', '社区图书馆服务', '社区图书馆服务体系']

['人口老龄化对京津冀经济\t京津冀人口老龄化对区域经济增长的影响京津冀', '人口老龄化', '区域经济增长', '固定效应模型']

['英语广告中的模糊语\t模糊语在英语广告中的应用及其功能模糊语', '英语广告', '表现形式', '语用功能']

['甘氨酸二肽的合成\t甘氨酸二肽合成中缩合剂的选择甘氨酸', '缩合剂', '二肽']

['玉米农田生态系统水碳通量日变化特征研究\t玉米农田生态系统水碳通量日变化特征研究玉米农田', '水汽通量', 'CO2通量', '冠层导度', '日变化']

----------------------------------------------------------------------------------------------------

['热处理对尼龙6 及其与聚酰胺嵌段共聚物共混体系晶体熔融行为和结晶结构的影响\t热处理对尼龙6及其与聚酰胺嵌段共聚物共混体系晶体熔融行为和结晶结构的影响尼龙6', '聚酰胺嵌段共聚物', '芳香聚酰胺', '热处理']

['面向生态系统服务的生态系统分类方案研发与应用.\t面向生态系统服务的生态系统分类方案研发与应用']

['huntington舞蹈病的动物模型\tHuntington舞蹈病的动物模型']

['试论我国海岸带经济开发的问题与前景\t试论我国海岸带经济开发的问题与前景海岸带', '经济开发', '问题', '前景']

['外语阅读焦虑与英语成绩及性别的关系\t外语阅读焦虑与英语成绩及性别的关系外语阅读焦虑', '外语课堂焦虑', '英语成绩', '性别']

['加油站风险分级管控\t加油站工作危害风险分级研究加油站', '工作危害分析(JHA)', '风险分级管控']

----------------------------------------------------------------------------------------------------

['开初婚未育证明怎么弄？\t初婚未育情况证明怎么开？\t1']

['谁知道她是网络美女吗？\t爱情这杯酒谁喝都会醉是什么歌\t0']

['人和畜生的区别是什么？\t人与畜生的区别是什么！\t1']

['男孩喝女孩的尿的故事\t怎样才知道是生男孩还是女孩\t0']

['这种图片是用什么软件制作的？\t这种图片制作是用什么软件呢？\t1']

['这腰带是什么牌子\t护腰带什么牌子好\t0']

----------------------------------------------------------------------------------------------------

!pip install -r requirements.txt

#查看cuda

!nvcc --version

nvcc: NVIDIA (R) Cuda compiler driver

Copyright (c) 2005-2021 NVIDIA Corporation

Built on Sun_Feb_14_21:12:58_PST_2021

Cuda compilation tools, release 11.2, V11.2.152

Build cuda_11.2.r11.2/compiler.29618528_0

2. SimCSE（2021.04）模型训练评估预测

SimCSE是有大神陈丹琦发表的《Simple Contrastive Learning of Sentence Embeddings》，简单高效

SimCSE包含无监督（图左部分）和有监督（图右部分）两种方法。实线箭头代表正例，虚线代表负例。

Unsupervised

创新点在于使用Dropout对文本增加噪音。

1.正例构造：利用Bert的随机Dropout，同一文本经过两次Bert enconder得到不同的句向量构成相似文本。

2.负例构造：同一个Batch中的其他样本作为负例被随机采样。

Supervised

1.正例：标注数据

2.负例：同Batch内的其他样本

语义索引预训练模型下载链接：

以下模型结构参数为: TrasformerLayer:12, Hidden:768, Heads:12, OutputEmbSize: 256

Model	训练参数配置	硬件	MD5
SimCSE	ernie 1.0 epoch:3 lr:5E-5 bs:64 max_len:64	4卡 v100-16g	7c46d9b15a214292e3897c0eb70d0c9f

2.1训练环境说明

NVIDIA Driver Version: 440.64.00
Ubuntu 16.04.6 LTS (Docker)
Intel(R) Xeon(R) Gold 6148 CPU @ 2.40GHz

2.2 单机单卡训练/单机多卡训练

这里采用单机多卡方式进行训练，通过如下命令，指定 GPU 0,1,2,3 卡, 基于SimCSE训练模型，无监督的数据量比较大，4卡的训练的时长在16个小时左右。如果采用单机单卡训练，只需要把--gpu参数设置成单卡的卡号即可。

训练的命令如下：

也可以使用bash脚本：

sh scripts/train.sh

#数据太大仅运行1个epoch作为尝试

%cd /home/aistudio/simcse

!unset CUDA_VISIBLE_DEVICES

# python -u -m paddle.distributed.launch --gpus '0,1,2,3' \

!python -u -m paddle.distributed.launch --gpus '0' \

	train.py \

	--device gpu \

	--save_dir ./checkpoint/ \

	--batch_size 16 \

	--learning_rate 5E-5 \

	--epochs 1 \

	--save_steps 2000 \

	--eval_steps 100 \

	--max_seq_length 64 \

	--infer_with_fc_pooler \

	--dropout 0.2 \

    --output_emb_size 256 \

	--train_set_file "/home/aistudio/literature_search_data/recall/train_unsupervised.csv" \

	--test_set_file "/home/aistudio/literature_search_data/recall/dev.csv" \

    --model_name_or_path "rocketqa-zh-base-query-encoder"

#查看数据并删除

#%cd /home/aistudio/simcse/checkpoint

#ls

# !mv xxx xx

# !rm -rf /home/aistudio/simcse/checkpoint

shell-init: 获取当前目录时出错: getcwd: 无法访问父目录: 没有那个文件或目录

部分结果展示：

global step 23960, epoch: 1, batch: 23960, loss: 0.00017, speed: 11.19 step/s

global step 23970, epoch: 1, batch: 23970, loss: 0.00014, speed: 11.18 step/s

global step 23980, epoch: 1, batch: 23980, loss: 0.00013, speed: 10.85 step/s

global step 23990, epoch: 1, batch: 23990, loss: 0.00012, speed: 10.28 step/s

global step 24000, epoch: 1, batch: 24000, loss: 0.00017, speed: 10.48 step/s

[2023-06-20 17:06:09,931] [    INFO] - tokenizer config file saved in ./checkpoints/model_24000/tokenizer_config.json

[2023-06-20 17:06:09,932] [    INFO] - Special tokens file saved in ./checkpoints/model_24000/special_tokens_map.json

可支持配置的参数：

infer_with_fc_pooler：可选，在预测阶段计算文本 embedding 表示的时候网络前向是否会过训练阶段最后一层的 fc; 建议打开模型效果最好。
scale：可选，在计算 cross_entropy loss 之前对 cosine 相似度进行缩放的因子；默认为 20。
dropout：可选，SimCSE 网络前向使用的 dropout 取值；默认 0.1。
save_dir：可选，保存训练模型的目录；默认保存在当前目录checkpoints文件夹下。
max_seq_length：可选，ERNIE-Gram 模型使用的最大序列长度，最大不能超过512, 若出现显存不足，请适当调低这一参数；默认为128。
batch_size：可选，批处理大小，请结合显存情况进行调整，若出现显存不足，请适当调低这一参数；默认为32。
learning_rate：可选，Fine-tune的最大学习率；默认为5e-5。
weight_decay：可选，控制正则项力度的参数，用于防止过拟合，默认为0.0。
epochs: 训练轮次，默认为1。
warmup_proption：可选，学习率warmup策略的比例，如果0.1，则学习率会在前10%训练step的过程中从0慢慢增长到learning_rate, 而后再缓慢衰减，默认为0.0。
init_from_ckpt：可选，模型参数路径，热启动模型训练；默认为None。
seed：可选，随机种子，默认为1000.
device: 选用什么设备进行训练，可选cpu或gpu。如使用gpu训练则参数gpus指定GPU卡号。
model_name_or_path: 预训练模型，用于模型和Tokenizer的参数初始化。

程序运行时将会自动进行训练，评估。同时训练过程中会自动保存模型在指定的save_dir中。

如：

checkpoints/

├── model_100

│   ├── model_state.pdparams

│   ├── tokenizer_config.json

│   └── vocab.txt

└── ...

2.3 效果评估

效果评估分为 4 个步骤:

a. 获取Doc端Embedding

基于语义索引模型抽取出Doc样本库的文本向量，

b. 采用hnswlib对Doc端Embedding建库

使用 ANN 引擎构建索引库(这里基于 hnswlib 进行 ANN 索引)

c. 获取Query的Embedding并查询相似结果

基于语义索引模型抽取出评估集 Source Text 的文本向量，在第 2 步中建立的索引库中进行 ANN 查询，召回 Top50 最相似的 Target Text, 产出评估集中 Source Text 的召回结果 recall_result 文件

d. 评估

基于评估集 dev.csv 和召回结果 recall_result 计算评估指标 Recall@k，其中k取值1，5，10，20，50.

运行如下命令进行 ANN 建库、召回，产出召回结果数据 recall_result

也可以使用下面的bash脚本：

sh scripts/run_build_index.sh

run_build_index.sh还包含cpu和gpu运行的脚本，默认是gpu的脚本

!python -u -m paddle.distributed.launch --gpus "0" --log_dir "recall_log/" \

        recall.py \

        --device gpu \

        --recall_result_dir "recall_result_dir" \

        --recall_result_file "recall_result.txt" \

        --params_path "checkpoint/model_24000/model_state.pdparams" \

        --model_name_or_path rocketqa-zh-base-query-encoder \

        --hnsw_m 100 \

        --hnsw_ef 100 \

        --batch_size 32 \

        --output_emb_size 256\

        --max_seq_length 60 \

        --recall_num 50 \

        --similar_text_pair "/home/aistudio/literature_search_data/recall/dev.csv" \

        --corpus_file "/home/aistudio/literature_search_data/recall/corpus.csv"

LAUNCH INFO 2023-06-20 17:21:57,220 -----------  Configuration  ----------------------

LAUNCH INFO 2023-06-20 17:21:57,220 devices: 0

LAUNCH INFO 2023-06-20 17:21:57,220 elastic_level: -1

LAUNCH INFO 2023-06-20 17:21:57,220 elastic_timeout: 30

LAUNCH INFO 2023-06-20 17:21:57,220 gloo_port: 6767

LAUNCH INFO 2023-06-20 17:21:57,220 host: None

LAUNCH INFO 2023-06-20 17:21:57,220 ips: None

LAUNCH INFO 2023-06-20 17:21:57,220 job_id: default

LAUNCH INFO 2023-06-20 17:21:57,220 legacy: False

LAUNCH INFO 2023-06-20 17:21:57,220 log_dir: recall_log/

LAUNCH INFO 2023-06-20 17:21:57,220 log_level: INFO

LAUNCH INFO 2023-06-20 17:21:57,220 master: None

LAUNCH INFO 2023-06-20 17:21:57,220 max_restart: 3

LAUNCH INFO 2023-06-20 17:21:57,220 nnodes: 1

LAUNCH INFO 2023-06-20 17:21:57,220 nproc_per_node: None

LAUNCH INFO 2023-06-20 17:21:57,220 rank: -1

LAUNCH INFO 2023-06-20 17:21:57,220 run_mode: collective

LAUNCH INFO 2023-06-20 17:21:57,220 server_num: None

LAUNCH INFO 2023-06-20 17:21:57,220 servers:

LAUNCH INFO 2023-06-20 17:21:57,220 start_port: 6070

LAUNCH INFO 2023-06-20 17:21:57,220 trainer_num: None

LAUNCH INFO 2023-06-20 17:21:57,220 trainers:

LAUNCH INFO 2023-06-20 17:21:57,220 training_script: recall.py

LAUNCH INFO 2023-06-20 17:21:57,220 training_script_args: ['--device', 'gpu', '--recall_result_dir', 'recall_result_dir', '--recall_result_file', 'recall_result.txt', '--params_path', 'checkpoint/model_24000/model_state.pdparams', '--model_name_or_path', 'rocketqa-zh-base-query-encoder', '--hnsw_m', '100', '--hnsw_ef', '100', '--batch_size', '32', '--output_emb_size', '256', '--max_seq_length', '60', '--recall_num', '50', '--similar_text_pair', '/home/aistudio/literature_search_data/recall/dev.csv', '--corpus_file', '/home/aistudio/literature_search_data/recall/corpus.csv']

LAUNCH INFO 2023-06-20 17:21:57,220 with_gloo: 1

LAUNCH INFO 2023-06-20 17:21:57,220 --------------------------------------------------

LAUNCH INFO 2023-06-20 17:21:57,221 Job: default, mode collective, replicas 1[1:1], elastic False

LAUNCH INFO 2023-06-20 17:21:57,228 Run Pod: zkzrka, replicas 1, status ready

LAUNCH INFO 2023-06-20 17:21:57,241 Watching Pod: zkzrka, replicas 1, status running

[2023-06-20 17:21:59,871] [    INFO] - We are using <class 'paddlenlp.transformers.ernie.tokenizer.ErnieTokenizer'> to load 'rocketqa-zh-base-query-encoder'.

[2023-06-20 17:21:59,871] [    INFO] - Already cached /home/aistudio/.paddlenlp/models/rocketqa-zh-base-query-encoder/ernie_3.0_base_zh_vocab.txt

[2023-06-20 17:21:59,894] [    INFO] - tokenizer config file saved in /home/aistudio/.paddlenlp/models/rocketqa-zh-base-query-encoder/tokenizer_config.json

[2023-06-20 17:21:59,894] [    INFO] - Special tokens file saved in /home/aistudio/.paddlenlp/models/rocketqa-zh-base-query-encoder/special_tokens_map.json

[2023-06-20 17:21:59,895] [    INFO] - We are using <class 'paddlenlp.transformers.ernie.modeling.ErnieModel'> to load 'rocketqa-zh-base-query-encoder'.

[2023-06-20 17:21:59,896] [    INFO] - Model config ErnieConfig {

  "attention_probs_dropout_prob": 0.1,

  "enable_recompute": false,

  "fuse": false,

  "hidden_act": "gelu",

  "hidden_dropout_prob": 0.1,

  "hidden_size": 768,

  "initializer_range": 0.02,

  "intermediate_size": 3072,

  "layer_norm_eps": 1e-12,

  "max_position_embeddings": 2048,

  "model_type": "ernie",

  "num_attention_heads": 12,

  "num_hidden_layers": 12,

  "pad_token_id": 0,

  "paddlenlp_version": null,

  "pool_act": "tanh",

  "task_id": 0,

  "task_type_vocab_size": 3,

  "type_vocab_size": 4,

  "use_task_id": true,

  "vocab_size": 40000

}

W0620 17:22:01.903739 113876 gpu_resources.cc:61] Please NOTE: device: 0, GPU Compute Capability: 8.0, Driver API Version: 11.2, Runtime API Version: 11.2

W0620 17:22:01.906452 113876 gpu_resources.cc:91] device: 0, cuDNN Version: 8.2.

[2023-06-20 17:22:02,567] [ WARNING] - Some weights of the model checkpoint at rocketqa-zh-base-query-encoder were not used when initializing ErnieModel: ['classifier.bias', 'classifier.weight']

- This IS expected if you are initializing ErnieModel from the checkpoint of a model trained on another task or with another architecture (e.g. initializing a BertForSequenceClassification model from a BertForPreTraining model).

- This IS NOT expected if you are initializing ErnieModel from the checkpoint of a model that you expect to be exactly identical (initializing a BertForSequenceClassification model from a BertForSequenceClassification model).

[2023-06-20 17:22:02,568] [    INFO] - All the weights of ErnieModel were initialized from the model checkpoint at rocketqa-zh-base-query-encoder.

If your task is similar to the task the model of the checkpoint was trained on, you can already use ErnieModel for predictions without further training.

[2023-06-20 17:22:03,384] [    INFO] - Loaded parameters from checkpoint/model_24000/model_state.pdparams

[2023-06-20 17:22:03,684] [    INFO] - start build index..........

[2023-06-20 17:25:12,817] [    INFO] - Total index number:300000

LAUNCH INFO 2023-06-20 17:25:57,498 Pod completed

LAUNCH INFO 2023-06-20 17:25:57,499 Exit code 0

#接下来，运行如下命令进行效果评估，产出Recall@1, Recall@5, Recall@10, Recall@20 和 Recall@50 指标:

#recall_num = [1, 5, 10, 20, 50] 可以在程序里修改

!python -u evaluate.py \

        --similar_text_pair "/home/aistudio/literature_search_data/recall/dev.csv" \

        --recall_result_file "./recall_result_dir/recall_result.txt" \

        --recall_num 50

recall@1=46.226

recall@5=58.91

recall@10=63.107

recall@20=67.23

recall@50=72.13

也可以使用下面的bash脚本：

bash scripts/evaluate.sh

参数含义说明

similar_text_pair: 由相似文本对构成的评估集
recall_result_file: 针对评估集中第一列文本 Source Text 的召回结果
recall_num: 对 1 个文本召回的相似文本数量

成功运行结束后，会输出如下评估指标:

recall@1=46.226

recall@5=58.91

recall@10=63.107

recall@20=67.23

recall@50=72.13

2.4. 预测

我们可以基于语义索引模型预测文本的语义向量或者计算文本 Pair 的语义相似度。

2.4.1 功能一：抽取文本的语义向量

修改 inference.py 文件里面输入文本 id2corpus 和模型路径 params_path:

``

params_path='checkpoints/model_12000/model_state.pdparams'

id2corpus={0:'国有企业引入非国有资本对创新绩效的影响——基于制造业国有上市公司的经验证据'}



然后运行

```python

!python inference.py

预测结果位256维的向量：

[1, 256]

[[ 4.23777066e-02  1.34486571e-01 -3.58039439e-02 -4.98685837e-02

   9.64262784e-02  3.75175267e-03  1.15876347e-01  5.15929982e-03

   5.40714264e-02 -8.27478245e-02 -8.87063593e-02 -7.43068382e-02

  -2.28806712e-05 -8.13025162e-02 -1.69725120e-02 -4.51577082e-02

   ...

2.4.2 功能二：计算文本 Pair 的语义相似度

准备预测数据

待预测数据为 tab 分隔的 tsv 文件，每一行为 1 个文本 Pair，部分示例如下:

热处理对尼龙6 及其与聚酰胺嵌段共聚物共混体系晶体熔融行为和结晶结构的影响        热处理对尼龙6及其与聚酰胺嵌段共聚物共混体系晶体熔融行为和结晶结构的影响尼龙6,聚酰胺嵌段共聚物,芳香聚酰胺,热处理

面向生态系统服务的生态系统分类方案研发与应用.   面向生态系统服务的生态系统分类方案研发与应用

huntington舞蹈病的动物模型      Huntington舞蹈病的动物模型

试论我国海岸带经济开发的问题与前景      试论我国海岸带经济开发的问题与前景海岸带,经济开发,问题,前景

开始预测

以上述 demo 数据为例，运行如下命令基于我们开源的 SimCSE无监督语义索引模型开始计算文本 Pair 的语义相似度:

!python -u -m paddle.distributed.launch --gpus "0" \

    predict.py \

    --device gpu \

    --params_path "/home/aistudio/simcse/checkpoint/model_24000/model_state.pdparams" \

    --model_name_or_path rocketqa-zh-base-query-encoder \

    --output_emb_size 256 \

    --batch_size 128 \

    --max_seq_length 64 \

    --text_pair_file "/home/aistudio/literature_search_data/recall/test.csv"

参数含义说明

device: 使用 cpu/gpu 进行训练
params_path：预训练模型的参数文件名
model_name_or_path: 预训练模型，用于模型和Tokenizer的参数初始化。
output_emb_size: Transformer 顶层输出的文本向量维度
text_pair_file: 由文本 Pair 构成的待预测数据集

也可以运行下面的bash脚本：

sh scripts/predict.sh

产出如下结果

0.8776634931564331

0.22624854743480682

0.1711222529411316

0.35435163974761963

...

2.5.推理部署

2.5.1 动转静导出

首先把动态图模型转换为静态图：

也可以运行下面的bash脚本：

sh scripts/export_model.sh

!python export_model.py --params_path checkpoints/model_24000/model_state.pdparams \

                       --model_name_or_path rocketqa-zh-base-query-encoder \

                       --output_path=./output

[32m[2023-06-20 17:38:38,694] [    INFO][0m - We are using <class 'paddlenlp.transformers.ernie.modeling.ErnieModel'> to load 'rocketqa-zh-base-query-encoder'.[0m

[32m[2023-06-20 17:38:38,695] [    INFO][0m - Model config ErnieConfig {

  "attention_probs_dropout_prob": 0.1,

  "enable_recompute": false,

  "fuse": false,

  "hidden_act": "gelu",

  "hidden_dropout_prob": 0.1,

  "hidden_size": 768,

  "initializer_range": 0.02,

  "intermediate_size": 3072,

  "layer_norm_eps": 1e-12,

  "max_position_embeddings": 2048,

  "model_type": "ernie",

  "num_attention_heads": 12,

  "num_hidden_layers": 12,

  "pad_token_id": 0,

  "paddlenlp_version": null,

  "pool_act": "tanh",

  "task_id": 0,

  "task_type_vocab_size": 3,

  "type_vocab_size": 4,

  "use_task_id": true,

  "vocab_size": 40000

}

[0m

W0620 17:38:40.708287 136862 gpu_resources.cc:61] Please NOTE: device: 0, GPU Compute Capability: 8.0, Driver API Version: 11.2, Runtime API Version: 11.2

W0620 17:38:40.711041 136862 gpu_resources.cc:91] device: 0, cuDNN Version: 8.2.

[33m[2023-06-20 17:38:41,352] [ WARNING][0m - Some weights of the model checkpoint at rocketqa-zh-base-query-encoder were not used when initializing ErnieModel: ['classifier.weight', 'classifier.bias']

- This IS expected if you are initializing ErnieModel from the checkpoint of a model trained on another task or with another architecture (e.g. initializing a BertForSequenceClassification model from a BertForPreTraining model).

- This IS NOT expected if you are initializing ErnieModel from the checkpoint of a model that you expect to be exactly identical (initializing a BertForSequenceClassification model from a BertForSequenceClassification model).[0m

[32m[2023-06-20 17:38:41,353] [    INFO][0m - All the weights of ErnieModel were initialized from the model checkpoint at rocketqa-zh-base-query-encoder.

If your task is similar to the task the model of the checkpoint was trained on, you can already use ErnieModel for predictions without further training.[0m

[32m[2023-06-20 17:38:41,353] [    INFO][0m - We are using <class 'paddlenlp.transformers.ernie.tokenizer.ErnieTokenizer'> to load 'rocketqa-zh-base-query-encoder'.[0m

[32m[2023-06-20 17:38:41,353] [    INFO][0m - Already cached /home/aistudio/.paddlenlp/models/rocketqa-zh-base-query-encoder/ernie_3.0_base_zh_vocab.txt[0m

[32m[2023-06-20 17:38:41,375] [    INFO][0m - tokenizer config file saved in /home/aistudio/.paddlenlp/models/rocketqa-zh-base-query-encoder/tokenizer_config.json[0m

[32m[2023-06-20 17:38:41,375] [    INFO][0m - Special tokens file saved in /home/aistudio/.paddlenlp/models/rocketqa-zh-base-query-encoder/special_tokens_map.json[0m

[0m

2.6 Paddle Inference预测

预测既可以抽取向量也可以计算两个文本的相似度。

修改id2corpus的样本：

#抽取向量

id2corpus={0:'国有企业引入非国有资本对创新绩效的影响——基于制造业国有上市公司的经验证据'}

#计算相似度

corpus_list=[['中西方语言与文化的差异','中西方文化差异以及语言体现中西方文化,差异,语言体现'],

                    ['中西方语言与文化的差异','飞桨致力于让深度学习技术的创新与应用更简单']]

然后使用PaddleInference：

也可以运行下面的bash脚本：

sh deploy.sh

!python deploy/python/predict.py --model_dir=./output

最终输出的是256维度的特征向量和句子对的预测概率:

(1, 256)

[[ 3.75502072e-02  3.84643604e-03  8.99736658e-02  1.26044407e-01

  -5.82645983e-02  1.04881898e-01  1.18444994e-01 -1.79638471e-02

  -9.96992644e-03  5.86171634e-02  7.59094805e-02 -6.29124865e-02

   .......

[0.9356030821800232, 0.4809684753417969]

3.DiffCSE（Unsupervised）：2022.04模型无监督训练下效果

相比于 SimCSE 模型，DiffCSE模型会更关注语句之间的差异性，具有精确的向量表示能力。DiffCSE 模型同样适合缺乏监督数据，但是又有大量无监督数据的匹配和检索场景。

https://arxiv.org/pdf/2204.10298.pdf

结合句子间差异的无监督句子嵌入对比学习方法——DiffCSE主要还是在SimCSE上进行优化（可见SimCSE的重要性），通过ELECTRA模型的生成伪造样本和RTD（Replaced Token Detection）任务，来学习原始句子与伪造句子之间的差异，以提高句向量表征模型的效果。

其思想同样来自于CV领域(采用不变对比学习和可变对比学习相结合的方法可以提高图像表征的效果)。作者提出使用基于dropout masks机制的增强作为不敏感转换学习对比学习损失和基于MLM语言模型进行词语替换的方法作为敏感转换学习「原始句子与编辑句子」之间的差异，共同优化句向量表征。

在SimCSE模型中，采用pooler层（一个带有tanh激活函数的全连接层）作为句子向量输出。该论文发现，采用带有BN的两层pooler效果更为突出，BN在SimCSE模型上依然有效。

①对于掩码概率，经实验发现，在掩码概率为30%时，模型效果最优。
②针对两个损失之间的权重值，经实验发现，对比学习损失为RTD损失200倍时，模型效果最优。

# !unzip -d /home/aistudio /home/aistudio/diffcse.zip

Archive:  /home/aistudio/diffcse.zip

   creating: /home/aistudio/diffcse/

  inflating: /home/aistudio/diffcse/custom_ernie.py

  inflating: /home/aistudio/diffcse/data.py

  inflating: /home/aistudio/diffcse/model.py

  inflating: /home/aistudio/diffcse/README.md

  inflating: /home/aistudio/diffcse/run_diffcse.py

  inflating: /home/aistudio/diffcse/run_eval.sh

  inflating: /home/aistudio/diffcse/run_infer.sh

  inflating: /home/aistudio/diffcse/run_train.sh

  inflating: /home/aistudio/diffcse/utils.py

# !unzip -d /home/aistudio /home/aistudio/senteval_cn.zip

%cd /home/aistudio/diffcse

/home/aistudio/diffcse

!python -u -m paddle.distributed.launch --gpus '0' --log_dir "log_train" \

    run_diffcse.py \

    --mode "train" \

    --encoder_name "rocketqa-zh-dureader-query-encoder" \

    --generator_name "ernie-3.0-base-zh" \

    --discriminator_name "ernie-3.0-base-zh" \

    --max_seq_length "128" \

    --output_emb_size "32" \

    --train_set_file "/home/aistudio/LCQMC/train.txt" \

    --eval_set_file "/home/aistudio/LCQMC/dev.tsv" \

    --save_dir "./checkpoint" \

    --log_dir "log_train" \

    --save_steps "2000" \

    --eval_steps "1000" \

    --epochs "1" \

    --batch_size "16" \

    --mlm_probability "0.15" \

    --lambda_weight "0.15" \

    --learning_rate "3e-5" \

    --weight_decay "0.01" \

    --warmup_proportion "0.01" \

    --seed "0" \

    --device "gpu"

模型评估

!export CUDA_VISIBLE_DEVICES

!python -u -m paddle.distributed.launch --gpus "0" --log_dir "log_eval"

run_diffcse.py

--mode "eval"

--encoder_name "rocketqa-zh-dureader-query-encoder"

--max_seq_length "128"

--output_emb_size "32"

--eval_set_file "/home/aistudio/LCQMC/dev.tsv"

--ckpt_dir "/home/aistudio/diffcse/checkpoint/best"

--batch_size "16"

--seed "0"

--device "gpu"

4.总结

语义索引（可通俗理解为向量索引）技术是搜索引擎、推荐系统、广告系统在召回阶段的核心技术之一。语义索引模型的目标是：给定输入文本，模型可以从海量候选召回库中快速、准确地召回一批语义相关文本。语义索引模型的效果直接决定了语义相关的物料能否被成功召回进入系统参与上层排序，从基础层面影响整个系统的效果。

在召回阶段，最常见的方式是通过双塔模型，学习Document(简写为Doc)的向量表示，对Doc端建立索引，用ANN召回。我们在这种方式的基础上，引入无监督预训练策略，SimCSE 模型适合缺乏监督数据，但是又有大量无监督数据的匹配和检索场景。

语义搜索系列文章全流程教学：
更多文本匹配方案参考：
1. 特定领域知识图谱融合方案：技术知识前置【一】-文本匹配算法：
2. 特定领域知识图谱融合方案：文本匹配算法Simnet、Diffcse【二】：
3. 特定领域知识图谱融合方案：文本匹配算法ERNIE-Gram单塔等诸多模型【三】：
4. 基于文心大模型套件ERNIEKit实现文本匹配算法：
5. 特定领域知识图谱融合方案：学以致用-问题匹配鲁棒性评测比赛验证【四】：
  
  相比于 SimCSE 模型，DiffCSE模型会更关注语句之间的差异性，具有精确的向量表示能力。DiffCSE 模型同样适合缺乏监督数据，但是又有大量无监督数据的匹配和检索场景。

更多优质内容请关注公号：汀丶人工智能

Reference

[1] Gao, Tianyu, Xingcheng Yao, and Danqi Chen. “SimCSE: Simple Contrastive Learning of Sentence Embeddings.” ArXiv:2104.08821 [Cs], April 18, 2021. http://arxiv.org/abs/2104.08821.

语义检索系统：基于无监督预训练语义索引召回：SimCSE、Diffcse的更多相关文章

Supervised pre-trainning有监督预训练
如我们有一个分类任务,数据库很小,这时还是需要通过预训练来避免深度模型的过拟合问题的,只不过预训练是通过在一个大的数据库上(比如imagenet),通过有监督的训练来完成的.这种有监督预训练加小的数据 ...
【转载】BERT：用于语义理解的深度双向预训练转换器（Transformer）
BERT:用于语义理解的深度双向预训练转换器(Transformer) 鉴于最近BERT在人工智能领域特别火,但相关中文资料却很少,因此将BERT论文理论部分(1-3节)翻译成中文以方便大家后续研 ...
【转】有监督训练 & 无监督训练
原文链接:http://m.blog.csdn.net/article/details?id=49591213 1. 前言在学习深度学习的过程中,主要参考了四份资料: 台湾大学的机器学习技法公开课: ...
转：Deep learning系列（十五）有监督和无监督训练
http://m.blog.csdn.net/article/details?id=49591213 1. 前言在学习深度学习的过程中,主要参考了四份资料: 台湾大学的机器学习技法公开课: Andr ...
学习AI之NLP后对预训练语言模型——心得体会总结
一.学习NLP背景介绍: 从2019年4月份开始跟着华为云ModelArts实战营同学们一起进行了6期关于图像深度学习的学习,初步了解了关于图像标注.图像分类.物体检测,图像都目标物体检测等 ...
【中文版 | 论文原文】BERT：语言理解的深度双向变换器预训练
BERT:Pre-training of Deep Bidirectional Transformers for Language Understanding 谷歌AI语言组论文<BERT:语言 ...
预训练语言模型的前世今生 - 从Word Embedding到BERT
预训练语言模型的前世今生 - 从Word Embedding到BERT 本篇文章共 24619 个词,一个字一个字手码的不容易,转载请标明出处:预训练语言模型的前世今生 - 从Word Embeddi ...
LUSE: 无监督数据预训练短文本编码模型
LUSE: 无监督数据预训练短文本编码模型 1 前言本博文本应写之前立的Flag:基于加密技术编译一个自己的Python解释器,经过半个多月尝试已经成功,但考虑到安全性问题就不公开了,有兴趣的朋友私 ...
CVPR2020：三维点云无监督表示学习的全局局部双向推理
CVPR2020:三维点云无监督表示学习的全局局部双向推理 Global-Local Bidirectional Reasoning for Unsupervised Representation L ...
学习笔记CB008:词义消歧、有监督、无监督、语义角色标注、信息检索、TF-IDF、隐含语义索引模型
词义消歧,句子.篇章语义理解基础,必须解决.语言都有大量多种含义词汇.词义消歧,可通过机器学习方法解决.词义消歧有监督机器学习分类算法,判断词义所属分类.词义消歧无监督机器学习聚类算法,把词义聚成多类 ...

随机推荐

以 Golang 为例详解 AST 抽象语法树
前言各位同行有没有想过一件事,一个程序文件,比如 hello.go 是如何被编译器理解的,平常在编写程序时,IDE 又是如何提供代码提示的.在这奥妙无穷的背后, AST(Abstract Synta ...
【docker】运维相关名词 Iaas-Paas和Saas docker镜像设置启动与停止常用命令镜像相关命令容器相关命令
目录上节回顾今日内容 1 什么是Iaas-Paas和Saas 2 docker 启动设置镜像 2.1 启动与停止常用命令 3 镜像相关命令 4 容器相关命令练习上节回顾 # 1 flask-s ...
2024-01-17：lc的30. 串联所有单词的子串
2024-01-17:用go语言,给定一个字符串 s 和一个字符串数组 words. words 中所有字符串长度相同. s 中的串联子串是指一个包含 words 中所有字符串以任意顺序排列连接 ...
SCA技术进阶系列（一）：SBOM应用实践初探
现代软件都是组装的而非纯自研.随着开源组件在数字化应用中的使用比例越来越高,混源开发已成为当前业内主流开发方式.开源组件的引入虽然加快了软件开发效率,但同时将开源安全问题引入了整个软件供应链.软件组成 ...
S3C2440移植linux3.4.2内核之内核框架介绍及简单修改
目录 uboot启动内核分析简单配置内核编译内核设置机器ID 修改晶振 uboot启动内核分析进入cmd_bootm.c,找到对应的bootm命令对应的do_bootm(): int do ...
Element UI Table合并行
Vue使用Element-ui Table 合并行,官方只是一个非常简单的合并例子,通常业务都是相同的某个字段进行合并. 效果图代码实现 1.Table <el-table :data=&qu ...
NewStarCTF 2023 公开赛道 WEEK5|CRYPTO WP
last_signin from Crypto.Util.number import * flag = b'?' e = 65537 p, q = getPrime(1024), getPrime(1 ...
java - 对象装载数据传递到方法中
1. 创建 Phone 类 package class_object; public class Phone { String brand; String color; double price; v ...
[转帖]快速入门：在 Red Hat 上安装 SQL Server 并创建数据库
https://learn.microsoft.com/zh-cn/sql/linux/quickstart-install-connect-red-hat?view=sql-server-linux ...
[转帖]使用 Dumpling 导出数据
16 Contributors 使用数据导出工具 Dumpling,你可以把存储在 TiDB 或 MySQL 中的数据导出为 SQL 或 CSV 格式,用于逻辑全量备份.Dumpling 也支持将 ...

语义检索系统：基于无监督预训练语义索引召回：SimCSE、Diffcse

基于无监督预训练语义索引召回：SimCSE、Diffcse

1.基于无监督预训练语义索引召回前置工作

1.1技术方案

1.2 评估指标

1.3 环境依赖和安装说明

1.4 代码结构

1.5 数据准备

1.5.1数据集说明

1.5.2 数据集下载

2. SimCSE（2021.04）模型训练评估预测

2.1训练环境说明

2.2 单机单卡训练/单机多卡训练

2.3 效果评估

2.4. 预测

2.4.1 功能一：抽取文本的语义向量

2.4.2 功能二：计算文本 Pair 的语义相似度

2.5.推理部署

2.5.1 动转静导出

2.6 Paddle Inference预测

3.DiffCSE（Unsupervised）：2022.04模型无监督训练下效果

模型评估

4.总结

Reference

语义检索系统：基于无监督预训练语义索引召回：SimCSE、Diffcse的更多相关文章

随机推荐

热门专题