全球计算机视觉三大顶会之一 ECCV 2018(European Conference on Computer Vision)即将于 9 月 8 -14 日在德国慕尼黑拉开帷幕.届时,旷视首席科学家孙剑博士将带领团队远赴盛会,助力计算机视觉技术的交流与落地.本文介绍了旷视科技被 ECCV 2018 所接收的一篇论文,该论文提出了一种用于场景理解的统一感知解析网络——UPerNet. 论文名称:<Unified Perceptual Parsing for Scene Understanding>…
全球计算机视觉三大顶会之一 ECCV 2018(European Conference on Computer Vision)即将于 9 月 8 -14 日在德国慕尼黑拉开帷幕,旷视科技有多篇论文被此大会接收.在这篇论文中,旷视科技提出的一种通过学习局部单应变换实现人脸校正的全新方法——GridFace. 论文名称:<GridFace: Face Rectification via Learning Local Homography Transformations> 论文链接:https://…
旷视科技 -- Face++ 世界最大的人脸识别技术平台: https://www.megvii.com/…
雷锋网按:本文为旷视科技首席科学家孙剑日前在 CCF-ADL上做的题为<如何在大公司和创业公司做好计算机视觉研究>的分享,主要介绍了近期计算机视觉的发展现状,ResNet基本原理和设计,旷视科技在计算机视觉的研究进展等.最后他还分享了一些“ 如何在大公司和创业公司做好研究?”的心得. 孙剑,博士,旷视科技(Face++)首席科学家.研究负责人. 2003年毕业于西安交通大学人工智能与机器人研究所,毕业后加入微软亚洲研究院(Microsoft Research Asia),任至首席研究员.其主要…
基于网格曲面的几何拓扑信息可以为物体语义分析和几何建模提供较强的线索,但是,如此重要的连接性信息在点云中是缺失的.为此,旷视西雅图研究院首次提出一种全新的深度学习网络,称之为 GeoNet,可建模点云所潜在表征的网格曲面特征. 为证明这种学习型的测地表示的有效性,旷视西雅图研究院.UCLA 等机构提出一种融合方案,即把 GeoNet 与其他 baseline 和 backbone 相结合,比如 PU-Net.PointNet++,用于若干对潜在网格曲面特征理解有较高要求的点云分析任务. 得益于对…
通常的图像转换模型(如 StarGAN.CycleGAN.IcGAN)无法实现同时训练,不同的转换配对也不能组合.在本文中,英属哥伦比亚大学(UBC)与腾讯 AI Lab 共同提出了一种新型的模块化多域生成对抗网络架构——ModularGAN,生成的结果优于以上三种基线结果.该架构由几个可重复利用和可组合的模块组成.不同的模块可以在测试时轻松组合,以便在不同的域中高效地生成/转换图像.研究者称,这是首个模块化的 GAN 架构. 据了解,腾讯 AI Lab 共有 19 篇论文入选 ECCV 201…
旷视MegEngine核心技术升级 7 月 11 日,旷视研究院在 2020 WAIC · 开发者日「深度学习框架与技术生态论坛」上围绕 6 月底发布的天元深度学习框架(MegEngine)Beta 版本核心技术升级与开源生态建设进行了首次深度解读. 7 月 11 日,旷视研究院在 2020 WAIC · 开发者日「深度学习框架与技术生态论坛」上围绕 6 月底发布的天元深度学习框架(MegEngine)Beta 版本核心技术升级与开源生态建设进行了首次深度解读. 作为一款训练推理一体化.动静合一…
http://www.skicyyu.org/ https://zhuanlan.zhihu.com/p/61910297 俞刚,旷视研究院Detection组负责人.2014年博士毕业于新加坡南洋理工大学,加入旷视.主要负责检测,分割,跟踪,骨架,动作行为等方面的研究以及算法落地工作.俞刚博士带队参加 2017 COCO+Places 挑战赛获得检测第一名,人体姿态估计第一名:接着,带队参加 2018 COCO+Mapillary 挑战赛,获四项第一.…
初来乍到,这个人说话容易让人觉得"狂". "我们将比赛结果提交上去,果不其然,是第一名的成绩."当他说出这句话的时候,表情没有一丝波澜,仿佛一切顺理成章. 他说的是AI顶会CVPR上的一项挑战赛结果,全球巨头都有参与,AI高手均同场竞技,第一名并不容易. 但如果你知道"他"叫范浩强. 一切就非常稀疏平常. 谁是范浩强? 当初那个奥赛金牌.保送清华姚班.高二加入旷视成为6号员工的天才少年,人称小强,一度是AI界的江湖传说. 曾经,他是国际信息学奥赛…
旷视MegEngine网络搭建 在 基本概念 中,介绍了计算图.张量和算子,神经网络可以看成一个计算图.在 MegEngine 中,按照计算图的拓扑结构,将张量和算子连接起来,即可完成对网络的搭建.MegEngine 提供了基于 functional 和基于 Module 的两种方式搭建网络. functional 仅提供最基本的算子功能,数据连接的工作完全由用户完成: Module 对网络模块(包含若干算子及其参数的基本单元)进行了进一步的封装,代码更易复用和维护. 基于 functional…
目录 论文主要信息 文章概要 背景 YOLOX-DarkNet53 实现细节 YOLOv3 baseline Decoupled head 实验 思路 story Strong data augmentation Anchor-free multi positives SimOTA End-to-end(NMS-free) YOLO 消融实验 性能对比 YOLOX-L YOLOX-Tiny & YOLOX-Nano Model size V.S. Data augmentation SOTA 参…
旷视MegEngine数据加载与处理 在网络训练与测试中,数据的加载和预处理往往会耗费大量的精力. MegEngine 提供了一系列接口来规范化这些处理工作. 利用 Dataset 封装一个数据集 数据集是一组数据的集合,例如 MNIST.Cifar10等图像数据集. Dataset 是 MegEngine 中表示数据集的抽象类.自定义的数据集类应该继承 Dataset 并重写下列方法: __init__() :一般在其中实现读取数据源文件的功能.也可以添加任何其它的必要功能: __getite…
旷视MegEngine基本概念 MegEngine 是基于计算图的深度神经网络学习框架. 本文简要介绍计算图及其相关基本概念,以及它们在 MegEngine 中的实现. 计算图(Computational Graph) 下面通过一个简单的数学表达式 y=(w∗x)+by=(w∗x)+b 来介绍计算图的基本概念,如下图所示: 图1 从中可以看到,计算图中存在: 数据节点(图中的实心圈):如输入数据 xx . ww . bb ,运算得到的中间数据 pp ,以及最终的运算输出 yy : 计算节点(图中…
严禁垃圾中文技术网站复制粘贴 流程:安装SRS服务接收ffmpeg的推流,SRS会提供一个flv的播放地址,前端通过fls.js播放即可,无需flash. 1.安装ffmpeg 提供两个版本,都能推流 ffmpeg-5.0.tar.gz https://foxbaby.lanzouu.com/ixjhw02ex1ri ffmpeg-4.1.6.tar.gz https://foxbaby.lanzouu.com/iBF2m02ex1yf 下载后上传至centos内解压进行源码安装,步骤如下:  …
基于模型的强化学习方法数据效率高,前景可观.本文提出了一种基于模型的元策略强化学习方法,实践证明,该方法比以前基于模型的方法更能够应对模型缺陷,还能取得与无模型方法相近的性能. 引言 强化学习领域近期取得的很多成就都是通过无模型强化学习算法 [1,2,3] 实现的.无模型(MF)算法倾向于实现最佳性能,通常可应用且易于实现. 然而,这是以数据密集为代价实现的,当与诸如神经网络的大容量函数近似器结合时,情况会恶化.它们的高样本复杂性阻碍其应用于机器人控制任务,在这些任务上收集数据代价高昂. 相比之…
CMU 和 Facebook 的研究者联合进行的一项研究提出了一种新型无监督视频重定向方法 Recycle-GAN,该方法结合了时间信息和空间信息,可实现跨域转换,同时保留目标域的风格.相较于只关注空间信息的Cycle-GAN,在视频转换中Recycle-GAN的过渡效果更加自然. 项目展示:http://www.cs.cmu.edu/~aayushb/Recycle-GAN/ 该研究提出一种用于视频重定向的无监督数据驱动方法,该方法能够在保持目标域风格不变的基础上,将一个域的连续内容迁移到另一…
行人再识别Re-ID面临两个特殊的问题: 1)源数据集和目标数据集类别完全不同 2)相机造成的图片差异 因为一般来说传统的域适应问题源域和目标域的类别是相同的,相机之间的不匹配也是造成行人再识别数据集数据分布不同的主要原因之一,如何在域适应中有效利用相机信息还没有一个很好的解决方案. 在这篇论文中,作者主要就是想解决这两个问题.提出了Hetero-Homogeneous Learning (HHL)算法.具体的解决方法如下: 相机差异: 通过目标域中未标注的图片和对应的风格转换图片学习(Homo…
(本文转自极视角) 本文由香港中文大学发表于ECCV2018,论文探索了IN和BN的优劣,据此提出的IBN-Net在语义分割的域适应任务上取得了十分显著的性能提升. 论文地址:https://arxiv.org/pdf/1807.09441 代码地址:https://github.com/XingangPan/IBN-Net 背景介绍 近年来,尽管CNN模型在诸如图像分类.目标检测和语义分割等任务上取得了惊艳的性能,但一个广泛存在的问题是:训练好的CNN模型只适用于特定的task甚至只适用于某一…
这项工作由香港科技大学,腾讯 AI lab,以及华中科技大学合作完成,目的是提升二值化卷积神经网络(1-bit CNN)的精度.虽然 1-bit CNN 压缩程度高,但是其当前在大数据集上的分类精度与对应的实值 CNN 相比有较大的精度下降.本文提出的 Bi-Real net 用 shortcut 传递网络中已有的实数值,从而提高二值化网络的表达能力,并且改进了现有的 1-bit CNN 训练方法.试验结果表明,18 层 Bi-Real net 在 imagenet 数据集上达到 56.4%的…
本文是Tsung-Yu Lin大神所作(B-CNN一作),主要是探究了一种无序的池化方法\(\gamma\) -democratic aggregators,可以最小化干扰信息或者对二阶特征的内容均等化.从另一个work line,对特征聚合后,作matrix power normalization(Abbreviated as MPN)可以有效提升二阶特征的表达能力,MPN在aggregation时,隐含地均等化二阶特征.基于以上信息,提出了\(\gamma\)-democratic aggr…
常见的目标检测算法缺少了定位效果的学习,IoU-Net提出IoU predictor.IoU-guided NMS和Optimization-based bounding box refinement,将IoU作为一个新分支融入到模型的学习和推理中,带来了新的性能优化方法,值得学习和参考 论文: Acquisition of Localization Confidence for Accurate Object Detection 论文地址 https://arxiv.org/abs/1807.…
论文提出了实时的超轻量级two-stage detector ThunderNet,靠着精心设计的主干网络以及提高特征表达能力的CEM和SAM模块,使用很少的计算量就能超越目前的one-stage detectors,在ARM平台也达到了实时性,GPU的速度更是达到267fps   来源:[晓飞的算法工程笔记] 公众号 论文: ThunderNet: Towards Real-time Generic Object Detection 论文地址:https://arxiv.org/abs/190…
作为中国移动应用运行托管平台(MM应用引擎)的开发部署工具,统一开发环境(UDE)在原HTML5跨平台开发功能基础上优化升级,新增跨平台编译(Android/iOS)和云端托管服务,正式上线2.0版本,为Web和移动应用开发者提供一站式跨平台开发和云端托管服务. UDE技术专区:http://dev.10086.cn/ude/ (注:专区提供应用模板.示例代码和开发手册等开发资源) 完整安装包下载:http://dev.10086.cn/appdown/cmcc_ude/final/CMCC_U…
Hadoop作为大数据处理的典型平台,在海量数据处理过程中,其主要限制因素是节点之间的数据传输速率.因为集群的带宽有限,而有限的带宽资源却承担着大量的刚性带宽需求,例如Shuffle阶段的数据传输不可避免,所以如何优化带宽资源的占用是一个值得思考的问题.仔细思考下,Hadoop数据传输的需求主要表现在几个方面: Map阶段的数据传输:Map阶段的非本地化任务需要远程拷贝数据块,然而这种带宽消耗在一定程度上不是必要的,如果数据能做到很高程度的本地化可以减少这个阶段的数据传输带来的带宽消耗. Shu…
本文出处 :Tamic 文/ http://blog.csdn.net/sk719887916/article/details/52132106 Rxjava +Rterofit 需要掌握的几个技巧 RXjava入门和详解请移步 比较有名的<RxJAVA详解>,这里继续前篇一些列的介绍一些容易忽略的技巧. Retrofit+RxJava结合系列请阅读: Retrofit 2.0 超能实践,完美支持Https传输 Retrofit2.0 完美同步Cookie实现免登录 Retrofit 2.0…
https://baijiahao.baidu.com/s?id=1591987712899539583 选自arXiv 作者:Rza Alp Güler, Natalia Neverova, Iasonas Kokkinos 机器之心编译 参与:Panda 实现从 2D 图像到 3D 表面的对应在很多方面都有极具价值的应用前景.近日,FAIR 发布了一篇研究论文,介绍了他们通过人工方式标注的图像到表面密集对应数据集 DensePose-COCO 以及基于此训练的 DensePose-RCNN…
客户整体情况: 合肥薪火科技,是安徽合肥一家主营微信开发和运营的中小企业,http://weimarket.cn/. 这家公司筹备.创立.曲折创业的经历,我一直有关注.因为2个老板,都是我的同学校友,都是武汉科技大学-计算机学院-08级的. 客户某个客户是做P2P网络借贷的,之前他们帮助客户做了移动端的,比如微信运营.现在,客户让他们帮忙升级PC端的Java实现的网站. 经过1个多小时的语音,达成如下合作约定: 1.提供Java Web开发,比如Struts.Spring等周边技术指点和疑难问题…
碰到的问题: .py文件放在cgi-bin文件夹下面,这个.py文件都要设置"#!python.exe路径"来告诉CGI如何找解析器解析这个.py的文件,我是想知道这个路径可否统一设置,不要在每个.py里面设置,不然换一台服务器,python安装程序路径一改不久找不到了 解决的办法: 在Linux里面/bin/env是二进制程序的执行路径,但在windows系统里面,系统环境Path下面就设置了所有执行文件的执行路径,所以就直接写,#! python,就可以保证调用环境变量里的pyth…
买不到的数目 小明开了一家糖果店.他别出心裁:把水果糖包成4颗一包和7颗一包的两种.糖果不能拆包卖. 小朋友来买糖的时候,他就用这两种包装来组合.当然有些糖果数目是无法组合出来的,比如要买 10 颗糖. 你可以用计算机测试一下,在这种包装情况下,最大不能买到的数量是17.大于17的任何数字都可以用4和7组合出来. 本题的要求就是在已知两个包装的数量时,求最大不能组合出的数字. 输入: 两个正整数,表示每种包装中糖的颗数(都不多于1000) 要求输出: 一个正整数,表示最大不能买到的糖数 不需要考…
传送门 考虑直接推式子不用优化怎么做. 显然每一个二进制位分开计算贡献就行. 即记录fi,jf_{i,j}fi,j​表示距离iii这个点不超过jjj的点的每个二进制位的0/10/10/1个数. 但直接存是会爆炸的. 考虑到每个数只会被用一次,所以可以考虑主席树那种复用信息的思想来继承长链后代的信息,然后短链直接暴力统计贡献就行. 由于ldxldxldx蒟蒻是口胡选手只会暴力写法,因此正解差不多是照着标程写的233. 细节较多,用指针维护比较自然一些. 代码…