原创作者 | 杨健 论文标题: K-BERT: Enabling Language Representation with Knowledge Graph 收录会议: AAAI 论文链接: https://ojs.aaai.org/index.php/AAAI/article/view/5681 项目地址: https://github.com/autoliuweijie/K-BERT 01 背景论述 笔者在前面的论文解读中提到过ERNIE使用基于自注意力机制来克服异构向量的融合,而KEPLER…
预训练语言模型的前世今生 - 从Word Embedding到BERT 本篇文章共 24619 个词,一个字一个字手码的不容易,转载请标明出处:预训练语言模型的前世今生 - 从Word Embedding到BERT - 二十三岁的有德 目录 一.预训练 1.1 图像领域的预训练 1.2 预训练的思想 二.语言模型 2.1 统计语言模型 神经网络语言模型 三.词向量 3.1 独热(Onehot)编码 3.2 Word Embedding 四.Word2Vec 模型 五.自然语言处理的预训练模型 六…
NLP论文解读 |杨健 论文标题: ERNIE:Enhanced Language Representation with Informative Entities 收录会议:ACL 论文链接: https://arxiv.org/abs/1905.07129 项目地址: https://github.com/thunlp/ERNIE 1.问题 论文作者认为尽管预训练语言模型能够从大规模文本语料中学习到词法.语法等信息,然而这些预训练模型却忽略了知识图谱提供的知识. 这些知识能够为预训练模型提供…
原创作者 | 杨健 论文标题: KEPLER: A unified model for knowledge embedding and pre-trained language representation 收录期刊: TACL 论文链接: https://direct.mit.edu/tacl/article/doi/10.1162/tacl_a_00360/98089/ 项目地址: https://github.com/THU-KEG/KEPLE 01.问题 上一次我们介绍了ERNIE,其实…
目录 简介 预训练任务简介 自回归语言模型 自编码语言模型 预训练模型的简介与对比 ELMo 细节 ELMo的下游使用 GPT/GPT2 GPT 细节 微调 GPT2 优缺点 BERT BERT的预训练 输入表征 Fine-tunninng 缺点 ELMo/GPT/BERT对比,其优缺点 BERT-wwm RoBERTa ERNIE(艾尼) 1.0 ERNIE 2.0 XLNet 提出背景 排列语言模型(Permutation Language Model,PLM) Two-Stream Sel…
一.学习NLP背景介绍:      从2019年4月份开始跟着华为云ModelArts实战营同学们一起进行了6期关于图像深度学习的学习,初步了解了关于图像标注.图像分类.物体检测,图像都目标物体检测等,基本了解了卷积神经网络(CNN)原理及相关常用模型,如:VGG16.MaxNet等.之后从9月份开始在华为云AI专家的带领指引下,对AI深度学习的另外一个重要领域:自然语言处理(NLP)的学习,到目前为止学习了:命名实体识别.文本分类.文本相似度分析.问答系统.人脸检测.在这一个多月对NLP的处理…
本篇带来XL-Net和它的基础结构Transformer-XL.在讲解XL-Net之前需要先了解Transformer-XL,Transformer-XL不属于预训练模型范畴,而是Transformer的扩展版,旨在解决Transformer的捕获长距离依赖信息的上限问题.接下来我们详细的介绍Transformer-XL和XL-Net. 一,Transformer-XL 论文:TRANSFORMER-XL: LANGUAGE MODELING WITH LONGER-TERM DEPENDENC…
这是一篇还在双盲审的论文,不过看了之后感觉作者真的是很有创新能力,ELECTRA可以看作是开辟了一条新的预训练的道路,模型不但提高了计算效率,加快模型的收敛速度,而且在参数很小也表现的非常好. 论文:ELECTRA: PRE-TRAINING TEXT ENCODERS AS DISCRIMINATORS RATHER THAN GENERATORS ELECTRA全称为Efficiently Learning an Encoder that Classifies Token Replaceme…
bert之类的预训练模型在NLP各项任务上取得的效果是显著的,但是因为bert的模型参数多,推断速度慢等原因,导致bert在工业界上的应用很难普及,针对预训练模型做模型压缩是促进其在工业界应用的关键,今天介绍三篇小型化bert模型——DistillBert, ALBERT, TINYBERT. 一,DistillBert 论文:DistilBERT, a distilled version of BERT: smaller, faster, cheaper and lighter  GitHub…
本篇带来Facebook的提出的两个预训练模型——SpanBERT和RoBERTa. 一,SpanBERT 论文:SpanBERT: Improving Pre-training by Representing and Predicting Spans  GitHub:https://github.com/facebookresearch/SpanBERT 这篇论文中提出了一种新的mask的方法,以及一个新损失函数对象.并且讨论了bert中的NSP任务是否有用.接下来SpanBERT是如何预训练…
3638: Cf172 k-Maximum Subsequence Sum Time Limit: 50 Sec  Memory Limit: 256 MBSubmit: 174  Solved: 92[Submit][Status][Discuss] Description 给一列数,要求支持操作: 1.修改某个数的值 2.读入l,r,k,询问在[l,r]内选不相交的不超过k个子段,最大的和是多少. Input The first line contains integer n (1 ≤ n …
这是网络流最基础的部分--求出源点到汇点的最大流(Max-Flow). 最大流的算法有比较多,本次介绍的是其中复杂度较高,但是比较好写的EK算法.(不涉及分层,纯粹靠BFS找汇点及回溯找最小流量得到最终的答案) EK算法,全名Edmonds-Karp算法(最短路径增广算法). 首先简单介绍一下网络流的基本术语: 源点:起点.所有流量皆从此点流出.只出不进. 汇点:终点.所有流量最后汇集于此.只进不出. 流量上限:有向边(u,v)(及弧)允许通过的最大流量. 增广路:一条合法的从源点流向汇点的路径…
题目:http://acm.hdu.edu.cn/showproblem.php?pid=3549 Flow Problem Time Limit: 5000/5000 MS (Java/Others)    Memory Limit: 65535/32768 K (Java/Others) Total Submission(s): 5111    Accepted Submission(s): 2385 Problem Description Network flow is a well-kn…
题目:https://www.lydsy.com/JudgeOnline/problem.php?id=5120 https://www.luogu.org/problemnew/show/P4003 神奇的费用流建图: 首先,网格图,相邻之间有关系,所以先二分染色一下: 然后发现问题就是染色后黑白点之间要完美匹配插头: 所以可以考虑把旋转通过带一些代价变成插头方向的变化: 把一个格子拆成上下左右四个点,分类讨论,连边即可: 然而一开始连边竟然写了100多行...然后T了: 看了看题解代码,突然…
### P3376 题目链接 ### 这里讲一下三种优化的实现以及正确性. 1.dfs多路增广优化 一般的Dinic算法中是这样的,bfs() 用于标记多条增广路,以至于能一次 bfs() 出多次 dfs()增广路.那么就会有 while(bfs()) 一次,然后 dfs() n 次,出 n 条增广路. 那么我们 dfs 的优化在于使得一次 dfs() 直接累加出这一次 bfs() 所标记出的 n 条增广路.变成 while(bfs())然后 dfs() 一次 即可. 一般的 Dinic 算法:…
题目:https://loj.ac/problem/2979 原来的思路: 优化连边.一看就是同一个桌子相邻座位之间连边.相邻桌子对应座位之间连边. 每个座位向它所属的桌子连边.然后每个人建一个点,向若干桌子连边. 因为连边的桌子是区间,所以线段树优化. 又想到志愿者招募之类的,所以想弄一个上下界费用流.人向它的座位连下界为1的边,对应桌子区间向人连边.找一些循环流. #include<cstdio> #include<cstring> #include<algorithm&…
题意: 第一行输入N M C ,表示从1到N有M条无向边,现在要从1走到N 走C次完全不同的路径,求最长边的最小值.下面M行是从a点到b点的距离. 建图: 题上说从两点之间可以有多条边,问的是从1~N的C种走法,所走路径上的最大边最小可以是多少,所以我们用结构体来储存点的距离,用二分搜索中的mid来假设成最大边的值,那么其他边都要小于等于它,然后根据mid建图,两点之间的边数作为容量网络的边权,也就是两点间的容量,(Dinic跑一遍)求出一个最大流,看它与C的关系,如果C大于它,说明mid太小,…
题意: 第一行输入m和n,m是猪圈的数量,n是顾客的数量,下面n行 第 i+1行表示第i个顾客 , 输入第一个数字表示有几把猪圈的钥匙,后面输入对应的猪圈,最后一个数字输入顾客想买几头猪. 建图: 设一个源点 s 和一个汇点 t,s 连接猪圈被第一个打开的顾客,权值为猪圈的猪数量,t 与顾客相连,权值为顾客想要的猪的数量,因为题上说迈克会根据下一个顾客的需求来将猪转移到合适的猪圈,所以顾客与同一猪圈排队的后面紧邻的顾客相连,权值为正无穷. 想一下感觉挺对的,s点有无数头猪,但是边的权值为猪圈的数…
[源码解析] 深度学习分布式训练框架 Horovod --- (1) 基础知识 目录 [源码解析] 深度学习分布式训练框架 Horovod --- (1) 基础知识 0x00 摘要 0x01 分布式并行训练 1.1 分布式并行训练的必要 1.2 分布式训练 1.3 训练并行机制 1.3.1 三种机制 1.3.2 如何使用 1.4 数据并行训练 0x02 通信 & 架构 2.1 方法和架构 2.2 异步 vs 同步 0x03 具体架构 3.1 MapReduce 3.2 参数服务器 (PS) 3.…
最小费用最大流板子,没有压行.利用重标号让边权非负,用Dijkstra进行增广,在理论和实际上都比SPFA增广快得多.教程略去.转载请随意. #include <cstdio> #include <cstring> #include <algorithm> #include <functional> #include <queue> using namespace std; ; const int inf = 0x33333333; typede…
1. K线基础知识 K线又叫阴阳线.蜡烛图.最早由日本米市商人发明,后来推广应用到金融行情价格的分析. K线图的构造主要包含四个价格因素:开盘价.收盘价.最高价.最低价 2. K线图例 收盘价高于开盘价画阳线,收盘价低于开盘价画阴线. 3. K线类型…
算法训练 区间k大数查询 时间限制:1.0s   内存限制:256.0MB 问题描述 给定一个序列,每次询问序列中第l个数到第r个数中第K大的数是哪个. 输入格式 第一行包含一个数n,表示序列长度. 第二行包含n个正整数,表示给定的序列. 第三个包含一个正整数m,表示询问个数. 接下来m行,每行三个数l,r,K,表示询问序列从左往右第l个数到第r个数中,从大往小第K大的数是哪个.序列元素从1开始标号. 输出格式 总共输出m行,每行一个数,表示询问的答案. 样例输入 51 2 3 4 521 5…
http://lx.lanqiao.org/problem.page?gpid=T11 算法训练 区间k大数查询   时间限制:1.0s   内存限制:256.0MB        问题描述 给定一个序列,每次询问序列中第l个数到第r个数中第K大的数是哪个. 输入格式 第一行包含一个数n,表示序列长度. 第二行包含n个正整数,表示给定的序列. 第三个包含一个正整数m,表示询问个数. 接下来m行,每行三个数l,r,K,表示询问序列从左往右第l个数到第r个数中,从大往小第K大的数是哪个.序列元素从1…
题目:http://acm.hdu.edu.cn/showproblem.php?pid=3549 模板题,白书上的代码... #include <iostream> #include <cstdio> #include <cstring> #include <algorithm> #include <queue> using namespace std; <<; ][],flow[][],n; int Edmonds_Karp(in…
                                                                             算法训练 区间k大数查询   时间限制:1.0s   内存限制:256.0MB        问题描述 给定一个序列,每次询问序列中第l个数到第r个数中第K大的数是哪个. 输入格式 第一行包含一个数n,表示序列长度. 第二行包含n个正整数,表示给定的序列. 第三个包含一个正整数m,表示询问个数. 接下来m行,每行三个数l,r,K,表示询问序列从…
Time Limit: 2000MS   Memory Limit: 32768K Total Submissions: 20754   Accepted: 10872 Description A power network consists of nodes (power stations, consumers and dispatchers) connected by power transport lines. A node u may be supplied with an amount…
题目链接. 分析: 网络流增广路算法模板题.http://www.cnblogs.com/tanhehe/p/3234248.html AC代码: #include <iostream> #include <queue> #include <cstdio> #include <cstring> using namespace std; ; <<); int cap[maxn][maxn], flow[maxn][maxn]; int n; int…
没有写单纯性的...应该不会有卡最小增广的出题人吧...(雾) struct MCMF{ struct tedge{int x,y,cap,flow,w,next;}adj[maxm];int ms,fch[maxn]; int n,m,d[maxn],p[maxn],a[maxn];bool inq[maxn]; void init(int n){ ; memset(fch,-,sizeof(fch)); return; } void addedge(int u,int v,int z,int…
/* Time:2015-6-18 接触网络流好几天了 写的第一个模版————Ford-Fulkerson算法 作用:求解网络最大流 注意:源点是0 汇点是1 如果题目输入的是1到n 请预处理减1 */ #include<cstdio> #include<cstring> #include<cmath> #include<queue> #include<algorithm> using namespace std; const int INF =…
转载自:增广拉格朗日乘子法(Augmented Lagrange Method) 增广拉格朗日乘子法的作用是用来解决等式约束下的优化问题, 假定需要求解的问题如下: minimize f(X) s.t.: h(X)=0 其中,f:Rn->R; h:Rn->Rm 朴素拉格朗日乘子法的解决方案是: L(X,λ)=f(X)+μh(X); μ:Rm 此时,求解L对X和μ的偏导同时为零就可以得到最优解了. 增广拉格朗日乘子法的解决方案是: Lc(x,λ)=f(X)+μh(X)+1/2c|h(X)|2 每…