YOLOv4实用训练实践

YOLOv4实用训练实践准备工作推荐使用Ubuntu 18.04 CMake >= 3.8: https://cmake.org/download/ CUDA >= 10.0: https://developer.nvidia.com/cuda-toolkit-archive OpenCV >= 2.4: https://opencv.org/releases.html cuDNN >= 7.0 for CUDA >= 10.0https://developer.nvid…

云原生的弹性 AI 训练系列之一：基于 AllReduce 的弹性分布式训练实践

引言随着模型规模和数据量的不断增大,分布式训练已经成为了工业界主流的 AI 模型训练方式.基于 Kubernetes 的 Kubeflow 项目,能够很好地承载分布式训练的工作负载,业已成为了云原生 AI 领域的事实标准,在诸多企业内广泛落地. 尽管 Kubeflow 让基于 Kubernetes 的大规模分布式训练变得可行,但是云原生的极致弹性.降本增效等特性在人工智能场景下没有得到很好地释放. 为了解决目前在云原生 AI 场景下的成本高,资源利用率低等问题,TKE AI 团队在 Kubef…

如何使用 Yolov4 训练人脸口罩检测模型

前言疫情当下,出入医院等公共场所都被要求佩戴口罩.这篇博客将会介绍如何使用 Yolov4,训练一个人脸口罩检测模型(使用 Yolov4 的原因是目前只复现到了 v4 ),代码地址为 https://github.com/zhiyiYo/yolov4. Yolov4 Yolov4 的神经网络结构相比 Yolov3 变化不是很大,主要更换了激活函数为 Mish,增加了 SPP 块和 PAN 结构(图源 <yolo系列学习笔记----yolov4(SPP原理)>). 感觉 Yolov4 最大的特点…

『TensorFlow』分布式训练_其一_逻辑梳理

1,PS-worker架构将模型维护和训练计算解耦合,将模型训练分为两个作业(job): 模型相关作业,模型参数存储.分发.汇总.更新,有由PS执行训练相关作业,包含推理计算.梯度计算(正向/反向传播),由worker执行该架构下,所有的woker共享PS上的参数,并按照相同的数据流图传播不同batch的数据,计算出不同的梯度,交由PS汇总.更新新的模型参数,大体逻辑如下: pull:各个woker根据数据流图拓扑结构从PS获取最新的模型参数 feed:各个worker根据定义的规则填充各…

Perseus-BERT——业内性能极致优化的BERT训练方案

一,背景——横空出世的BERT全面超越人类 2018年在自然语言处理(NLP)领域最具爆炸性的一朵“蘑菇云”莫过于Google Research提出的BERT(Bidirectional Encoder Representations from Transformers)模型.作为一种新型的语言表示模型,BERT以“摧枯拉朽”之势横扫包括语言问答.理解.预测等各项NLP锦标的桂冠,见图1和图2. [图1]SQuAD是基于Wikipedia文章的标准问答数据库的NLP锦标.目前SQuAD2.0排名…

几个小实践带你快速上手MindSpore

摘要:本文将带大家通过几个小实践快速上手MindSpore,其中包括MindSpore端边云统一格式及华为智慧终端背后的黑科技. MindSpore介绍 MindSpore是一种适用于端边云场景的新型开源深度学习训练/推理框架. MindSpore提供了友好的设计和高效的执行,旨在提升数据科学家和算法工程师的开发体验,并为Ascend AI处理器提供原生支持,以及软硬件协同优化. 同时,MindSpore作为全球AI开源社区,致力于进一步开发和丰富AI软硬件应用生态. 接下来我将带大家通过几个小…

YOLOv3和YOLOv4长篇核心综述（上）

YOLOv3和YOLOv4长篇核心综述(上) 对目标检测算法会经常使用和关注,比如Yolov3.Yolov4算法. 实际项目进行目标检测任务,比如人脸识别.多目标追踪.REID.客流统计等项目.因此目标检测是计算机视觉项目中非常重要的一部分. 从2018年Yolov3年提出的两年后,在原作者声名放弃更新Yolo算法后,俄罗斯的Alexey大神扛起了Yolov4的大旗. 在此,大白将项目中,需要了解的Yolov3.Yolov4系列相关知识点以及相关代码进行完整的汇总,希望和大家共同学习探讨. 文章…

Yolov3&Yolov4网络结构与源码分析

Yolov3&Yolov4网络结构与源码分析从2018年Yolov3年提出的两年后,在原作者声名放弃更新Yolo算法后,俄罗斯的Alexey大神扛起了Yolov4的大旗. 文章目录 1. 论文汇总 2. Yolov3核心基础内容 2.1 网络结构可视化 2.2 网络结构图 2.3 核心基础内容 3. Yolov3相关代码 3.1 python代码 3.2 C++代码内容 3.3 python版本的Tensorrt代码 3.4 C++版本的Tensorrt代码 4. Yolov4核心基础内容 4…

[源码解析] 深度学习分布式训练框架 horovod (16) --- 弹性训练之Worker生命周期

[源码解析] 深度学习分布式训练框架 horovod (16) --- 弹性训练之Worker生命周期目录 [源码解析] 深度学习分布式训练框架 horovod (16) --- 弹性训练之Worker生命周期 0x00 摘要 0x01 Worker 是什么 1.1 角色 1.2 职责 1.3 组网机制 1.3.1 通信环 1.3.2 弹性构建 1.3.2.1 Driver 监控 1.3.2.2 Driver 重新构建 0x02 总体生命流程 0x03 配置过程 0x04 启动过程 4.1 总…

[源码解析] 深度学习分布式训练框架 horovod (18) --- kubeflow tf-operator

[源码解析] 深度学习分布式训练框架 horovod (18) --- kubeflow tf-operator 目录 [源码解析] 深度学习分布式训练框架 horovod (18) --- kubeflow tf-operator 0x00 摘要 0x01 背景知识 1.1 Kubernetes 1.2 容器作为调度单元 1.3 Kubeflow 1.4 Tensorflow on Kubeflow 1.5 Operator 1.6 TF-Operator 0x02 TensorFlow 分布…

[源码解析] 深度学习分布式训练框架 horovod (19) --- kubeflow MPI-operator

[源码解析] 深度学习分布式训练框架 horovod (19) --- kubeflow MPI-operator 目录 [源码解析] 深度学习分布式训练框架 horovod (19) --- kubeflow MPI-operator 0x00 摘要 0x01 背景知识 1.1 MPI 1.2 Open-MPI 1.3 MPI Operator 0x02 设计思路 2.1 架构图 2.2 角色 2.3 主要过程 2.4 CRD 的定义 2.5 创建 2.6 终止 0x03 实现 3.1 K8S…

CMake基础教程

如果需要配置和检查我们工程中的所有依赖,那么可以选用CMake工具:但是,这并不是必须的,因为我们可以使用其他的工具或者是IDE(比如Makefiles或者Visual Studio)来配置我们的工程.然而,CMake是最好移植的方式来配置多平台的C++项目. 1. 基本用法 CMake使用名称为CMakeLists.txt的文件,其中定义了编译和依赖处理等过程.对于一个基本的项目而言,从一个源码文件构建一个可执行程序只需要中CMakeLists.txt文件中添加两行代码即可.文件内容像下面这样…

重磅︱文本挖掘深度学习之word2vec的R语言实现

每每以为攀得众山小,可.每每又切实来到起点,大牛们,缓缓脚步来俺笔记葩分享一下吧,please~ --------------------------- 笔者寄语:2013年末,Google发布的 word2vec工具引起了一帮人的热捧,大家几乎都认为它是深度学习在自然语言领域的一项了不起的应用,各种欢呼"深度学习在自然语言领域开始发力了". 基于word2vec现在还出现了doc2vec,word2vec相比传统,考虑单词上下文的语义:但是doc2vec不仅考虑了单词上下文的语义,…

TensorFlow练习13: 制作一个简单的聊天机器人

现在很多卖货公司都使用聊天机器人充当客服人员,许多科技巨头也纷纷推出各自的聊天助手,如苹果Siri.Google Now.Amazon Alexa.微软小冰等等.前不久有一个视频比较了Google Now和Siri哪个更智能,貌似Google Now更智能. 本帖使用TensorFlow制作一个简单的聊天机器人.这个聊天机器人使用中文对话数据集进行训练(使用什么数据集训练决定了对话类型).使用的模型为RNN(seq2seq),和前文的<RNN生成古诗词><RNN生成音乐>类似. 相…

[Tensorflow实战Google深度学习框架]笔记4

本系列为Tensorflow实战Google深度学习框架知识笔记,仅为博主看书过程中觉得较为重要的知识点,简单摘要下来,内容较为零散,请见谅. 2017-11-06 [第五章] MNIST数字识别问题 1. MNIST数据处理为了方便使用,Tensorflow提供了一个类来处理MNIST数据,这个类会自动下载并转化MNIST数据的格式,将数据从原始的数据包中解析成训练和测试神经网络时使用的格式. 2. 神经网络模型训练及不同模型结果对比为了评测神经网络模型在不同参数下的效果,一般会从训练数据…

微软自然语言理解平台LUIS：从零开始，帮你开发智能音箱

今年微软开发者大会Build 2017上展示了一款Invoke智能音箱,受到了媒体和大众的广泛关注.近两年,不少大公司纷纷涉足该领域,使得智能音箱逐渐成为一款热门的人工智能家用电器.智能音箱的兴起也改变了人们和家用电器之间的“沟通方式”:从动手到动嘴.“播放一些周杰伦的歌”,“明天北京的天气怎么样”… 对着智能音箱说出自己想让它做的事情,这些之前在科幻电影里才会出现的桥段逐渐变成了现实.那么,智能音箱是如何听懂人类指令的呢? 智能音箱听懂人类指令的过程,其实就是语义理解的过程,可以被分解成为两个…

Pytorch多GPU并行处理

可以参数2017coco detection 旷视冠军MegDet: MegDet 与 Synchronized BatchNorm PyTorch-Encoding官方文档对CGBN(cross gpu bn)实现 GPU捉襟见肘还想训练大批量模型? 在一个或多个 GPU 上训练大批量模型: 梯度累积充分利用多 GPU 机器:torch.nn.DataParallel 多 GPU 机器上的均衡负载 : PyTorch-Encoding 的 PyTorch 包,包括两个模块:DataParal…

深入理解Delete（JavaScript）

深入理解Delete(JavaScript) Delete 众所周知是删除对象中的属性. 但如果不深入了解delete的真正使用在项目中会出现非常严重的问题 (: Following 是翻译 kangax 的一篇文章 "Understanding Delete"; PS:文章主要分为8部分, 有时间弄点瓜子儿, 整壶茶了解一下. (小编建议直接看原文地址, 以下翻译仅供自己学习使用); 相信大家如果有时间看完会有收获...也希望有大牛能指出其中翻译的不足... 目录: § 原理…

Python协程与Go协程的区别二

写在前面世界是复杂的,每一种思想都是为了解决某些现实问题而简化成的模型,想解决就得先面对,面对就需要选择角度,角度决定了模型的质量, 喜欢此UP主汤质看本质的哲学科普,其中简洁又不失细节的介绍了人类解决问题的思路,以及由概念搭建的思维模型对人类解决问题的重要性与限制.也认识到学习的本质就是: 认识获取(了解概念) -> 知识学习(建立模型) -> 技能训练(实践) 阅读也好, 学习也好, 妨碍我们「理解」的障碍主要有两个: 高度抽象的概念「模型」无法关联现象也就是说概念明确 + 关系明…

Bert实战---情感分类

1.情感分析语料预处理使用酒店评论语料,正面评论和负面评论各5000条,用BERT参数这么大的模型, 训练会产生严重过拟合,,泛化能力差的情况, 这也是我们下面需要解决的问题; 2.sigmoid二分类回顾在BERT的训练中Next Sentence Prediction中, 我们取出$[cls]$对应的那一条向量, 然后把他映射成1个数值并用$sigmoid$函数激活: $$\hat{y} = sigmoid(Linear(cls\_vector)) \quad \hat{y} \in (…

Developer 转型记：一个开发平台的“魔力”

摘要:开发者该如何借助AI技术,探索可沉淀的落地应用?在这AI技术浪潮下,实现完美的应用创新?我们一起来听听他的故事…… 随着政策的加持.技术快速的迭代,人工智能热潮正在蔓延.2020年,AI落地大考还在继续,随之带来的人才需求,也在不断增长,同样率先把握住机会的开发者就有更大机会占据先机. 那么,开发者该如何借助AI技术,探索可沉淀的落地应用?在这AI技术浪潮下,实现完美的应用创新?或许华为云MDG社区华为云MVP毛昌启的故事,能给你带来一点点的思路. 千回百转,茫茫中遇到TA 华为云MVP毛…

Linux 三剑客之 awk 实战详解教程

我们知道 Linux 三剑客,它们分别是:grep.sed.awk.在前边已经讲过 grep 和 sed,没看过的同学可以直接点击阅读,今天要分享的是更为强大的 awk. sed 可以实现非交互式的字符串替换,grep 能够实现有效的过滤功能.与两者相比,awk 是一款强大的文本分析工具,在对数据分析并生成报告时,显得尤为强悍. awk 强大的功能,是一般 Linux 命令无法比拟的.在本文中,我不会告诉你 awk 也是一种编程语言,免得会吓到你.我们只需把它当做 Linux 下一款强大的文本分…

tensorflow-yolov4实施方法

tensorflow-yolov4实施方法 tensorflow-yolov4-tflite YOLOv4: Optimal Speed and Accuracy of Object Detection 文献链接:https://arxiv.org/abs/2004.10934 代码链接:https://github.com/AlexeyAB/darknet 摘要有大量的特征被认为可以提高卷积神经网络(CNN)的精度.需要在大型数据集上对这些特征的组合进行实际测试,并对结果进行理论证明.某些功…

实践详细篇-Windows下使用VS2015编译的Caffe训练mnist数据集

上一篇记录的是学习caffe前的环境准备以及如何创建好自己需要的caffe版本.这一篇记录的是如何使用编译好的caffe做训练mnist数据集,步骤编号延用上一篇 <实践详细篇-Windows下使用VS2015编译安装Caffe环境(CPU ONLY) >的顺序. 二:使用caffe做图像分类识别训练测试mnist数据集 1.下载MNIST数据集,MNIST数据集包含四个文件信息,见表格: 文件内容 train-images-idx3-ubyte.gz 训练集图片 - 55000 张训练图…

实践详细篇-Windows下使用Caffe训练自己的Caffemodel数据集并进行图像分类

三:使用Caffe训练Caffemodel并进行图像分类上一篇记录的是如何使用别人训练好的MNIST数据做训练测试.上手操作一边后大致了解了配置文件属性.这一篇记录如何使用自己准备的图片素材做图像分类.第一篇<实践详细篇-Windows下使用VS2015编译安装Caffe环境(CPU ONLY) >有讲过使用Caffe的背景.所以这篇记录使用的素材就是12306的验证码来进行图像识别分类. 1.准备素材由于这里抓取到的验证码是整合后的大图.就是8张小图片合成的.由于12306的验证码大图并…

20个实用的javascript技巧及实践（一）

在本篇文章中,我们将会向大家分享JavaScript开发中的小技巧.最佳实践和实用内容,不管你是前端开发者还是服务端开发者,都应该来看看这些编程的技巧总结,绝对会让你受益匪浅的. 文中所提供的代码片段都已经过最新版的Chrome 30测试,该浏览器使用V8 JavaScript引擎(V8 3.20.17.15). 1.第一次给变量赋值时,别忘记var关键字如果初次赋值给未声明的变量,该变量会被自动创建为全局变量,在JS开发中,应该避免使用全局变量,这是大家容易忽略的错误. 2.使用===而非=…

基于深度学习和迁移学习的识花实践——利用 VGG16 的深度网络结构中的五轮卷积网络层和池化层，对每张图片得到一个 4096 维的特征向量，然后我们直接用这个特征向量替代原来的图片，再加若干层全连接的神经网络，对花朵数据集进行训练（属于模型迁移）

基于深度学习和迁移学习的识花实践(转) 深度学习是人工智能领域近年来最火热的话题之一,但是对于个人来说,以往想要玩转深度学习除了要具备高超的编程技巧,还需要有海量的数据和强劲的硬件.不过 TensorFlow 和 Keras 等框架的出现大大降低了编程的复杂度,而迁移学习的思想也允许我们利用现有的模型加上少量数据和训练时间,取得不俗的效果. 这篇文章将示范如何利用迁移学习训练一个能从图片中分类不同种类的花的模型,它在五种花中能达到 80% 以上的准确度(比瞎蒙高了 60% 哦),而且只需要普…