摘要 本文研究视频流中未知目标的长期跟踪问题.在第一帧,通过选定位置和大小定义跟踪目标.在接下来的每一帧中,跟踪任务是确定目标的位置和大小或者说明目标不存在.我们提出了一种新颖的跟踪框架(TLD),明确地将长期跟踪任务分解为跟踪.学习和检测.跟踪器完成目标在图像帧间地跟踪.检测器集中到当前为止所有到已经观测到的外观,并在必要时纠正跟踪器.学习阶段估计检测器的误差并更新,避免将来的误差.我们研究怎样识别检测器的误差,并从误差中学习.开发了一种新颖的学习方法(P-N学习),通过一对"专家"…
[译者预读] GFS这三个字母无需过多修饰,<Google File System>的论文也早有译版.但是这不妨碍我们加点批注.重温经典,并结合上篇Haystack的文章,将GFS.TFS.Haystack进行一次全方位的对比,一窥各巨头的架构师们是如何权衡利弊.各取所需. 1. 介绍 我们设计和实现了GFS来满足Google与日俱增的数据处理需求.与传统的分布式文件系统一样,GFS着眼在几个重要的目标,比如性能.可伸缩性.可靠性和可用性.不过它也会优先考虑我们自身应用场景的特征和技术环境,所…
​  前言  本文介绍一篇CVPR2020的论文,它在paperswithcode上获得了16887星,谷歌学术上有261的引用次数. 论文主要介绍了目标检测现有的研究进展.anchor-based和anchor-free的背景和各自的方法差异,并提出了一种新的正负样本选择方案,用于消除这两者之间的差距. 注:论文讲述了很多关于anchor方面的知识,这篇文章保留了较多原论文中的内容,在介绍新方法的同时,可作为深入理解anchor的文章. 论文:Bridging the Gap Between…
目录 0.论文连接 1.前言 2.论文Abstract翻译 3.论文的主要贡献 4.4 训练 5 模型性能分析 5.1 关于在线挖掘困难样本的性能 5.2 将人脸检测与对齐联合的性能 5.3 人脸检测的效果 6 代码阅读[待更新] 7 感悟&&心得 @ 0.论文连接 点击打开 1.前言 MTCNN是一篇关于人脸检测算法效果很不错的论文,落地效果也很好,据我所知有不少公司在用这个算法做人脸检测. 2.论文Abstract翻译 在无约束环境下,人脸的检测与对齐对于不同的姿势,灯光和遮挡是非常有…
今天我们剖析的也是推荐领域的经典论文,叫做Wide & Deep Learning for Recommender Systems.它发表于2016年,作者是Google App Store的推荐团队.这年刚好是深度学习兴起的时间.这篇文章讨论的就是如何利用深度学习模型来进行推荐系统的CTR预测,可以说是在推荐系统领域一次深度学习的成功尝试. 著名的推荐模型Wide & deep就是出自这篇论文,这个模型因为实现简单,效果不俗而在各大公司广泛应用.因此它同样也可以认为是推荐领域的必读文章之…
​ 前言: 目标检测的预测框经过了滑动窗口.selective search.RPN.anchor based等一系列生成方法的发展,到18年开始,开始流行anchor free系列,CornerNet算不上第一篇anchor free的论文,但anchor freee的流行却是从CornerNet开始的,其中体现的一些思想仍值得学习. 看过公众号以往论文解读文章的读者应该能感觉到,以往论文解读中会有不少我自己的话来表述,文章写得也很简练.但这篇论文的写作实在很好,以至于这篇解读文章几乎就是对论…
这篇博客会介绍点云的基本知识,重点介绍最近两年发表的部分经典论文,有什么建议欢迎留言! 点云基本介绍 点云是某个坐标系下的点的数据集,包含了丰富的信息,可以是三维坐标X,Y,Z.颜色.强度值.时间等等.下面两张图分别展示了点云在三维空间可视化以后的效果和数据格式.点云的数据获取方式有很多种,比较常见的是三维激光扫描仪进行数据采集,它有三大类: 星载(星载LiDAR采用卫星平台,运行轨道高.观测视野广,基本可以测量到地球的每一个角落,为三维控制点和数字高程模型的获取提供了新的途径,有些星载激光雷达…
目录 1.Memory Networks 框架 流程 损失函数 QA 问题 一些扩展 小结 2.End-To-End Memory Networks Single Layer 输入模块 算法流程 Multiple Layer 网络参数设置细节 QA 问题 3 Key-Value Memory Networks 4 Dynamic Memory Networks Input Module Question Module Episodic Memory Module Attention mechan…
前言: 这是实例分割中的一篇经典论文,以往的实例分割模型都比较复杂,这篇论文提出了一个简单且直接的实例分割模型,如何设计这种简单直接的模型且要达到一定的精度往往会存在一些困难,论文中有很多思路或思想值得借鉴,因此十分值得一读. 在本文中,为让各个方向的读者都能看得懂并抓住重点,较为详细地介绍了本文的创新或改进思路,而对一些细节不予赘述. 论文:SOLO: Segmenting Objects by Locations* 代码:https://git.io/AdelaiDet Introducti…
摘要 卷积网络在特征分层领域是非常强大的视觉模型.我们证明了经过端到端.像素到像素训练的卷积网络超过语义分割中最先进的技术.我们的核心观点是建立"全卷积"网络,输入任意尺寸,经过有效的推理和学习产生相应尺寸的输出.我们定义并指定全卷积网络的空间,解释它们在空间范围内dense prediction任务(预测每个像素所属的类别)和获取与先验模型联系的应用.我们改编当前的分类网络(AlexNet [22] ,the VGG net [34] , and GoogLeNet [35] )到完…
Sutton 出版论文的主页: http://incompleteideas.net/publications.html Phd  论文:   temporal credit assignment in reinforcement learning http://incompleteideas.net/publications.html#PhDthesis 最近在做强化学习方面的课题, 发现在强化学习方面被称作强化学习之父的  Sutton  确实很厉害, TD算法和策略梯度策略算法都是他所提出…
MapReduce: Simplified Data Processing on Large Clusters(MapReduce: 简化大型集群下的数据处理) 作者:Jeffrey Dean and Sanjay Ghemawat Abstract(摘要) MapReduce is a programming model and an associated implementation for processing and generating large data sets. Users s…
https://github.com/chrislusf/seaweedfs [译者预读]面对海量小文件的存储和检索,Google发表了GFS,淘宝开源了TFS,而Facebook又是如何应对千亿级别的图片存储.每秒百万级别的图片查询?Facebook与同样提供了海量图片服务的淘宝,解决方案有何异同?本篇文章,为您揭晓. 本篇论文的原文可谓通俗易懂.行云流水.结构清晰.图文并茂……正如作者所说的——“替换Facebook的图片存储系统就像高速公路上给汽车换轮子,我们无法去追求完美的设计……我们花…
相关工作: 将R-CNN推广到RGB-D图像,引入一种新的编码方式来捕获图像中像素的地心姿态,并且这种新的编码方式比单纯使用深度通道有了明显的改进. 我们建议在每个像素上用三个通道编码深度图像:水平视差.离地高度.像素局部表面法向量和重力方向的夹角(HHA,horizontal disparity, height above ground, and the angle the pixel`s, local surface normal makes with the inferred gravit…
论文Maxout Networks实际上非常简单,只是发现一种新的激活函数(叫maxout)而已,跟relu有点类似,relu使用的max(x,0)是对每个通道的特征图的每一个单元执行的与0比较最大化操作,而maxout是对5个通道的特征图在通道的维度上执行最大化操作 这些论文已经有很多前人帮我们解读了,所以不需要自己再费心理解,非常好,所以自己也不需要再写什么多余的解读了,该说的下面的文献都说了. 基础资料 论文翻译:Maxout Networks,这篇博文讲得非常仔细非常清楚,必须仔细看 其…
一.读前说明 1.论文"Densely Connected Convolutional Networks"是现在为止效果最好的CNN架构,比Resnet还好,有必要学习一下它为什么效果这么好. 2.代码地址:https://github.com/liuzhuang13/DenseNet 3.这篇论文主要参考了Highway Networks,Residual Networks (ResNets)和GoogLeNet,所以在读本篇论文之前,有必要读一下这几篇论文,另外还可以看一下Very…
迁移学习研究综述 Sinno Jialin Pan and Qiang Yang,Fellow, IEEE 摘要:   在许多机器学习和数据挖掘算法中,一个重要的假设就是目前的训练数据和将来的训练数据,一定要在相同的特征空间并且具有相同的分布.然而,在许多现实的应用案例中,这个假设可能不会成立.比如,我们有时候在某个感兴趣的领域有个分类任务,但是我们只有另一个感兴趣领域的足够训练数据,并且后者的数据可能处于与之前领域不同的特征空间或者遵循不同的数据分布.这类情况下,如果知识的迁移做的成功,我们将…
*****仅供个人学习记录***** Neural Ordinary Differential Equations[2019] 论文地址:[1806.07366] Neural Ordinary Differential Equations (arxiv.org) 摘要:我们介绍了一个新的深度神经网络模型系列.我们不是指定一个离散的隐藏层序列,而是使用神经网络对隐藏状态的导数进行参数化.网络的输出是用一个黑盒微分方程解算器计算的.这些连续深度模型具有恒定的内存成本,使其评估策略适应每个输入,并且…
读本篇论文“Batch-normalized Maxout Network in Network”的原因在它的mnist错误率为0.24%,世界排名第4.并且代码是用matlab写的,本人还没装cafe……  理论知识 本文是台湾新竹国立交通大学的Jia-Ren Chang 写的,其实要说这篇文章有多在的创新,还真没有,实际上它就是把三篇比较新的论文的东西组合起来,分别是这三篇: 1.Network in network :ICLR 2014 2.Maxout Networks :ICML 20…
论文Network in network (ICLR 2014)是对传统CNN的改进,传统的CNN就交替的卷积层和池化层的叠加,其中卷积层就是把上一层的输出与卷积核(即滤波器)卷积,是线性变换,然后再加上一个非线性变换的激活函数(比如:relu),但是在NIN中并有像CNN中这样, 1.它们的区别之一是卷积层不一样: CNN: 卷积层= 卷积+激活函数 NIN:卷积层=mlpconv层= 卷积+MLP = 卷积+1*1卷积+1*1卷积=卷积+relu+1*1卷积+relu+1*1卷积+relu…
(原文地址:http://www.cnblogs.com/idealer3d/p/LearningRaphaelJSVectorGraphics.html) 前面3篇博文里面,我们讲解了一本叫做<Instant RaphaelJS Starter>的书,那本书里我们将RaphaelJS里面的基本内容都进行了比较详细的讲解.但是,坦白的说,那本书通俗易懂却太过浅显.现在我们下一本叫做<Learning Raphael JS Vector Graphics>的书,算是上一本的进阶.当然…
本文来自李纪为博士的论文 Deep Reinforcement Learning for Dialogue Generation. 1,概述 当前在闲聊机器人中的主要技术框架都是seq2seq模型.但传统的seq2seq存在很多问题.本文就提出了两个问题: 1)传统的seq2seq模型倾向于生成安全,普适的回答,例如“I don’t know what you are talking about”.为了解决这个问题,作者在更早的一篇文章中提出了用互信息作为模型的目标函数.具体见A Diversi…
. 过去几年发表于各大 AI 顶会论文提出的 400 多种算法中,公开算法代码的仅占 6%,其中三分之一的论文作者分享了测试数据,约 54% 的分享包含“伪代码”.这是今年 AAAI 会议上一个严峻的报告. 人工智能这个蓬勃发展的领域正面临着实验重现的危机,就像实验重现问题过去十年来一直困扰着心理学.医学以及其他领域一样.最根本的问题是研究人员通常不共享他们的源代码. 可验证的知识是科学的基础,它事关理解.随着人工智能领域的发展,打破不可复现性将是必要的. Learning Feature Py…
Active Learning Two Faces of Active Learning, Dasgupta, 2011 Active Learning Literature Survey, Settles, 2010 Applications A Survey of Emerging Approaches to Spam Filtering, Caruana, 2012 Ambient Intelligence: A Survey, Sadri, 2011 A Survey of Online…
ICLR 2013 International Conference on Learning Representations May 02 - 04, 2013, Scottsdale, Arizona, USA ICLR 2013 Workshop Track Accepted for Oral Presentation Zero-Shot Learning Through Cross-Modal Transfer Richard Socher, Milind Ganjoo, Hamsa Sr…
ICLR 2014 International Conference on Learning Representations Apr 14 - 16, 2014, Banff, Canada Workshop Track Submitted Papers Stochastic Gradient Estimate Variance in Contrastive Divergence and Persistent Contrastive Divergence Mathias Berglund, Ta…
一 摘要 在本文中,我们提出了一个非常简单的图像分类深度学习框架,它主要依赖几个基本的数据处理方法:1)级联主成分分析(PCA);2)二值化哈希编码;3)分块直方图.在所提出的框架中,首先通过PCA方法学习多层滤波器核,然后使用二值化哈希编码以及分块直方图特征来进行下采样和编码.因此,该框架称为PCANet,并且很容易设计与学习.为了进行比较并且更好的理解,我们还介绍和研究了PCANet的两个类似的框架:RandNet和LDANet.它们与PCANet有相同的拓扑结构,但RandNet的滤波器核…
Image Caption: Automatically describing the content of an image domain:CV+NLP Category:(by myself, you can read the survey for detail.) CNN+RNN, with attention mechanisms Reinforcement Learning GAN Compositional Architecture: Review Network, Guiding…
前言 wifi的加密协议WPA2已经被破解,影响范围包括所有支持wifi的设备,包括Android,Linux,Apple,Windows,OpenBSD,联发科技,Linksys等.其中对Android和Linux的影响尤其严重,41%的Android设备(Android 6.0及以上)将受到严重影响.介绍这些并非是为了造成恐慌,而是引起我们的重视,在使用wifi时候,我么会经常社交和支付软件的使用,如果这些被破解,造成的损失非常巨大,对于企业更是如此.本文不是对论文,是论文官网对论文介绍的翻…
论文下载 作者(三位Google大佬)一开始提出DNN的缺点,DNN不能用于将序列映射到序列.此论文以机器翻译为例,核心模型是长短期记忆神经网络(LSTM),首先通过一个多层的LSTM将输入的语言序列(下文简称源序列)转化为特定维度的向量,然后另一个深层LSTM将此向量解码成相应的另一语言序列(下文简称目标序列).我个人理解是,假设要将中文翻译成法语,那么首先将中文作为输入,编码成英语,然后再将英语解码成法语.这种模型与基于短语的统计机器翻译(Static Machine Translation…