NLP-transformer-分词库用法

参考文档： https://blog.csdn.net/orangerfun/article/details/124089467

1 pip install transformer

2 下载专有的vocab.txt词典

　　这个词典用于把单词-> id -> 词向量

　　https://github.com/google-research/bert

3 实例化分词实例

1 from transformers import BertTokenizer

2 import torch

3

4 token = r"vocab.txt"

5

6 bert_tokenizer = BertTokenizer(vocab_file=token)

4 分词任务

# 1 分词任务

res = bert_tokenizer.tokenize("山海关总兵官吴三桂")

print(res)

['山', '海', '关', '总', '兵', '官', '吴', '三', '桂']

5 转为id

# 2 转化为id
# 接受一个词或字列表
idres = bert_tokenizer.convert_tokens_to_ids("山海关总兵官吴三桂")
print(idres)
idres = bert_tokenizer.convert_tokens_to_ids(res)
print(idres)
# 一个字时候是否是准的？ 准确id
idres = bert_tokenizer.convert_tokens_to_ids("山")
print(idres)

6 转文字

# id转字

wordres = bert_tokenizer.convert_ids_to_tokens([2255, 3862, 1068, 2600, 1070, 2135, 1426, 676, 3424])

# 可以成功转为对应汉字

print(wordres)

# 来看看 前面误操作的 100 能转为什么

wordres = bert_tokenizer.convert_ids_to_tokens(100)

print(wordres)

7 使用回调函数实现批量等工程级别操作

text: 需要被编码的文本，可以是一维或二维list 最好是一维的
padding: 是否需要padding，可选如下几个值
truncation: 是否要进行截断
True or 'longest_first'，保留由max_length指定的长度，或者当max_length没有指定时，截取保留模型最大能接受的长度，对于sentence pair，截取长度最大的句子
False or 'do_not_truncate (default) 不截取
only_first，截取到max_length, 但是只截取sentence pair中的第一个句子
'only_second'，同理，只截取pair中第二个句子
max_length，句子最大长度，和padding及truncation相关

合理动态padding问题

注意：因为需要添加句子头和尾

['[CLS]', '我', '爱', '北', '京', '天', '[SEP]']

[101, 2769, 4263, 1266,  776, 1921,  102]
所以如果最大长度max_length，句子最大长度 设置为7的话，  注意5个位置来存实际的内容。

当max_length=10时候，填充为

{'input_ids': tensor([[ 101, 2769, 4263, 1266, 776, 1921, 2128, 7305, 102, 0],
[ 101, 2408, 1767, 1391, 4156, 7883, 102, 0, 0, 0]])，在标志位后面添加000

本质：输出为输入model的长度词列表。

最大长度max_length即输入model的最大长度。

examples = [["我爱北京天安门", "广场吃炸鸡"],["苏德战争","俄罗"]]

res = bert_tokenizer(examples,

                padding="max_length",

                truncation=True,

                max_length=10,

                return_tensors="pt",

                return_length=True)

print(res)

{'input_ids': tensor([[ 101, 2769, 4263, 1266,  776,  102, 2408, 1767, 1391,  102],

        [ 101, 5722, 2548, 2773,  751,  102,  915, 5384,  102,    0]]), 'token_type_ids': tensor([[0, 0, 0, 0, 0, 0, 1, 1, 1, 1],

        [0, 0, 0, 0, 0, 0, 1, 1, 1, 0]]), 'length': tensor([10,  9]), 'attention_mask': tensor([[1, 1, 1, 1, 1, 1, 1, 1, 1, 1],

        [1, 1, 1, 1, 1, 1, 1, 1, 1, 0]])}

NLP-transformer-分词库用法的更多相关文章

[NLP]Transformer模型解析
简介[2] Attention Is All You Need是2017年google提出来的一篇论文,论文里提出了一个新的模型,叫Transformer,这个结构广泛应用于NLP各大领域,是目前比较 ...
13.深度学习(词嵌入)与自然语言处理--HanLP实现
笔记转载于GitHub项目:https://github.com/NLP-LOVE/Introduction-NLP 13. 深度学习与自然语言处理 13.1 传统方法的局限前面已经讲过了隐马尔可夫 ...
[NLP] 相对位置编码(一) Relative Position Representatitons (RPR) - Transformer
对于Transformer模型的positional encoding,最初在Attention is all you need的文章中提出的是进行绝对位置编码,之后Shaw在2018年的文章中提出了 ...
NLP学习(5)----attention/ self-attention/ seq2seq/ transformer
目录: 1. 前提 2. attention (1)为什么使用attention (2)attention的定义以及四种相似度计算方式 (3)attention类型(scaled dot-produc ...
NLP与深度学习（四）Transformer模型
1. Transformer模型在Attention机制被提出后的第3年,2017年又有一篇影响力巨大的论文由Google提出,它就是著名的Attention Is All You Need[1]. ...
中文分词库及NLP介绍，jieba，gensim的一些介绍
六款中文分词软件介绍: https://blog.csdn.net/u010883226/article/details/80731583 里面有jieba, pyltp什么的.另外下面这个博客有不少 ...
[NLP] REFORMER: THE EFFICIENT TRANSFORMER
1.现状 (1) 模型层数加深 (2) 模型参数量变大 (3) 难以训练 (4) 难以fine-tune 2. 单层参数量和占用内存分析层参数设置参数量与占用内存 1 layer 0.5Bill ...
NLP入门学习中关于分词库HanLP导入使用教程
大家好,时隔多年再次打开我的博客园写下自己的经验和学习总结,开园三年多,文章数少得可怜,一方面自己技术水平局限,另一方面是自己确实想放弃写博客.由于毕业工作的原因,经常性的加班以及仅剩下少的可怜的休息 ...
NLP之基于Transformer的句子翻译
Transformer 目录 Transformer 1.理论 1.1 Model Structure 1.2 Multi-Head Attention & Scaled Dot-Produc ...
[NLP] The Annotated Transformer 代码修正
1. RuntimeError: "exp" not implemented for 'torch.LongTensor' class PositionalEncoding(nn. ...

随机推荐

Layui 表单元素考到页面样式不生效
表单元素必须要标记在表单里面(calss="layui-form") 例如: <div class="layui-form"> <input ...
vue的数据更新视图不同步的处理用Vue.$set()
// vue的数据更新视图不同步的处理用Vue.$set() // 通过Vue.set方法设置data属性vm.$set(最终值,数组索引,数组值) ==Vue.$set(arr,index,val) ...
认识 C 的编译器和编译流程
GCC 的编译流程我们写的 C 代码保存在扩展名是 .c 的文件,其实是一个纯文本文件. GCC(C 编译器之一)通过预处理器(Pre-Processing)把头文件展开到hello.i文件中. 编 ...
通过手动创建hibernate工厂，自动生成表，完成数据库备份还原功能
最近做toB.toG业务,普遍要去适配各种国产数据库,所以不得不用hibernate,过去这么多年一直都是用mybatis+mysql,现在重拾hibernate,专注跨数据库,感兴趣的加关注. 需求 ...
Kotlin学习-基础知识点
一:基础要点 //常量定义 valval arg_a1: Int = 1 //变量定义varvar arg_a2 = 5 // 系统自动推断变量类型为Int备注:kotlin 定义变量必须给定初始 ...
SAP SPOOL_INTERNAL_ERROR
运行SE38程序 RSPO0041
Deer_GF之【AssetsHotfix】和【AssetsNative】文件夹的区别
Hi,今天介绍一下Deer_Gf里的[AssetsHotfix]和[AssetsNative]文件夹的区别: 框架介绍请移步[Deer_GF之框架介绍] 一.[AssetsHotfix] ...
JS输出formData的全部值
//第一种 for (var value of formData.values()) { console.log(value); } //第二种 for (var [a, b] of formData ...
VMware Workstation Pro 16、docker和Mysql相关
VMware Workstation Pro 16安装参考 docker容器的使用参考 Docker 容器使用 Docker Hub资源 Docker Hub Mysql数据库安装参考 Mysql数据 ...
flannel 关闭SNAT
flannel 关闭SNAT 默认情况下,flannel 访问集群外网络是通过 SNAT 成宿主机 ip 方式,在一些金融客户环境中为了能实现防火墙规则,需要直接针对 POD ip 进行进行规则配置, ...

NLP-transformer-分词库用法

NLP-transformer-分词库用法

NLP-transformer-分词库用法的更多相关文章

随机推荐

热门专题