深度学习实践篇[17]：模型压缩技术、模型蒸馏算法：Patient-KD、DistilBERT、DynaBERT、TinyBERT

【深度学习实践篇[17]：模型压缩技术、模型蒸馏算法：Patient-KD、DistilBERT、DynaBERT、TinyBERT】的更多相关文章

深度学习之Attention Model（注意力模型）

1.Attention Model 概述深度学习里的Attention model其实模拟的是人脑的注意力模型,举个例子来说,当我们观赏一幅画时,虽然我们可以看到整幅画的全貌,但是在我们深入仔细地观察时,其实眼睛聚焦的就只有很小的一块,这个时候人的大脑主要关注在这一小块图案上,也就是说这个时候人脑对整幅图的关注并不是均衡的,是有一定的权重区分的.这就是深度学习里的Attention Model的核心思想. 人脑的注意力模型,说到底是一种资源分配模型,在某个特定时刻,你的注意力总是集中在画面中的…

[源码解析] 深度学习流水线并行 PipeDream(3)--- 转换模型

[源码解析] 深度学习流水线并行 PipeDream(3)--- 转换模型目录 [源码解析] 深度学习流水线并行 PipeDream(3)--- 转换模型 0x00 摘要 0x01 前言 1.1 改进 1.2 前文回顾 0x02 合成模型 2.1 主体逻辑 2.2 支撑逻辑 0x03 模型转换 3.1 分离子图 3.2 转换模型 3.2.1 转换Module 3.2.2 模版文件 3.2.3 生成文件 3.3 融合模型 3.3.1 main函数逻辑 3.3.2 融合模型 3.3.3 输出 3.…

【机器学习PAI实践十】深度学习Caffe框架实现图像分类的模型训练

背景我们在之前的文章中介绍过如何通过PAI内置的TensorFlow框架实验基于Cifar10的图像分类,文章链接:https://yq.aliyun.com/articles/72841.使用Tensorflow做深度学习做深度学习的网络搭建和训练需要通过PYTHON代码才能使用,对于不太会写代码的同学还是有一定的使用门槛的.本文将介绍另一个深度学习框架Caffe,通过Caffe只需要填写一些配置文件就可以实现图像分类的模型训练. 关于PAI的深度学习功能开通,请务必提前阅读https://…

深度学习攻防对抗（JCAI-19 阿里巴巴人工智能对抗算法竞赛）

最近在参加IJCAI-19阿里巴巴人工智能对抗算法竞赛(点击了解),初赛刚刚结束,防御第23名,目标攻击和无目标攻击出了点小问题,成绩不太好都是50多名,由于找不到队友,只好一个人跟一群大佬PK,双拳难敌四手,差点自闭放弃比赛了.由于知道对抗攻击的人很少,于是抽空写篇博客,简单科普一下人工智能与信息安全的交叉前沿研究领域:深度学习攻防对抗. 然后简单介绍一下IJCAI-19 阿里巴巴人工智能对抗算法竞赛目前,人脸识别.自动驾驶.刷脸支付.抓捕逃犯.美颜直播……人工智能与实体经济深度结合,彻底改…

深度学习框架如何自动选择最快的算法？Fast Run 让你收获最好的性能！

作者:王博文 | 旷视 MegEngine 架构师一.背景对于深度学习框架来说,网络的训练/推理时间是用户非常看中的.在实际生产条件下,用户设计的 NN 网络是千差万别,即使是同一类数学计算,参数也各不相同.如果没有针对性的优化,框架就完全丧失竞争力.因此,在一类数学计算中,开发者们会开发多种高效的算法,分别适用于不同的参数,以保证网络的性能.接下来开发者们需要解决一个新问题,当计算参数确定以后,如何让最快的算法执行该计算. 大部分框架靠先验的经验选择算法,MegEngine 亦总结有优秀的…

《深度学习-改善深层神经网络》-第二周-优化算法-Andrew Ng

目录 1. Mini-batch gradient descent 1.1 算法原理 1.2 进一步理解Mini-batch gradient descent 1.3 TensorFlow中的梯度下降 2. Exponentially weighted averages 2.1 伦敦天气温度 2.2 进一步理解Exponentially weighted averages 2.3 偏差修正(bias correction) 3. Gradient descent with momentum(Mo…