当前图像视觉各个领域文献资料的索引,包含计算机视觉.图像处理.文本(图像)分析.视频分析.模式识别等主题.如果对哪个方向比较感兴趣,可以查看这个方向的比较重要的Paper,每一个大的目录后面都对应一些更细的研究方向,选择某个研究方向就能获得该领域从经典到最新的文献资料索引. 1:帮助和FAQ 版权声明,怎样找到文章.介绍等. 2:期刊会议组织 期刊列表,会议名称列表,研究组织 3:综合信息         书籍,合集,回顾,综述,概述 4:理念.基础.传感 计算机视觉,正则化,连接主义,形态学,…
做图像处理,没有一定的知识储备是不可能的,但是一定要学会“借力打力”,搜集一些很实用的开源代码,你们看看是否需要~~ 场景识别: SegNet: A Deep Convolutional Encoder-Decoder Architecture for Robust Semantic Pixel-Wise Labelling https://github.com/alexgkendall/caffe-segnet Tracking: Learning to Track: Online Multi…
这是收录的图像视觉领域的博客资源的第一部分,包含:中国内地.香港.台湾 这些名人大家一般都熟悉,本文仅收录了包含较多资料的个人博客,并且有不少更新,还有些名人由于分享的paper.code或者数据集不多,暂时没收录了. 说明: 1)主要罗列有资源分享的博客,如果是该领域专家但资源分享较少,则未收录 2)排名按照字母顺序 3)主要按照博客的域名进行分类,不代表作者当前工作所在机构 4)欢迎补充更多的资源. 1  中国内地 1.1    程明明 清华大学程明明博士,南开大学媒体计算实验室 http:…
收录的图像视觉(也包含机器学习等)领域的博客资源的第二部分,包含:美国MIT.斯坦福.CMU三所高校 1)这些名人大家一般都熟悉,本文仅收录了包含较多资料的个人博客,并且有不少更新,还有些名人由于分享的paper.code或者数据集不多,暂时没收录了. 2)排名按照字母顺序 3)主要按照博客的域名进行分类,不代表作者当前工作所在机构 4)更新日期有可能不是最最新的日期,供参考 1        美国 1.1     MIT 1.1.1   Antonio Torralba MIT助理教授Anto…
1. 早期C. Koch与S. Ullman的研究工作. 他们提出了非常有影响力的生物启发模型. C. Koch and S. Ullman . Shifts in selective visual attention: Towards the underlying neural circuitry. Human Neurobiology, 4(4):219-227, 1985. C. Koch and T. Poggio. Predicting the Visual World: Silenc…
      首页 视界智尚 算法技术 每日技术 来打我呀 注册     OpenCV学习笔记大集锦 整理了我所了解的有关OpenCV的学习笔记.原理分析.使用例程等相关的博文.排序不分先后,随机整理的.如果有好的资源,也欢迎介绍和分享. 1:OpenCV学习笔记 作者:CSDN数量:55篇博文网址:http://blog.csdn.net/column/details/opencv-manual.html 2:部分OpenCV的函数解读和原理解读 作者:梦想腾飞数量:20篇博文网址:http:/…
我一直在思考一个问题,图像增强以后,哪些方面的特征最为显著,思来想去,无果而终!翻看了一篇知网的paper,基于保真度(VIF)的增强图像质量评价,文章中指出无参考质量评价,可以从三个方面考虑:平均梯度(AG).信息熵(IE).空间频率(SF).这些特征不是很全面,效果也未必是好的,在数据库上测试的结果的确不是很理想,就以空间频率为主吧,研究一下: 1.什么是图像的频率: 不同频率信息在图像结构中有不同的作用.图像的主要成分是低频信息,它形成了图像的基本灰度等级,对图像结构的决定作用较小:中频信…
我是看了这样的一个视频:http://www.56.com/u83/v_NTk3Mzc1NTI.html 然后在准备针对TLD视觉跟踪算法来个小的总结. 以下博文转自:http://blog.csdn.net/windtalkersm/article/details/8018980 TLD是一种算法的简称,原作者把它叫做Tracking-Learning-Detection.搞视觉的人看到这个名字都会吓一跳,很ambitious的计划.是09年的工作,不算太久,不过也不太新.网上关于这个的资源其…
一.经典综述文章 1.  Durrant-Whyte H, Bailey T. Simultaneous localization and mapping: part I[J]. IEEE robotics & automation magazine, 2006, 13(2): 99-110. 2. T. Bailey and H. F. Durrant-Whyte. Simultaneous Localisation and Mapping (SLAM): Part II. Robotics…
这是收录的图像视觉领域的博客资源的第一部分,包含:中国内地.香港.台湾 这些名人大家一般都熟悉,本文仅收录了包含较多资料的个人博客,并且有不少更新,还有些名人由于分享的paper.code或者数据集不多,暂时没收录了.择优选择自己关注的吧! 说明: 1)主要罗列有资源分享的博客,如果是该领域专家但资源分享较少,则未收录 2)排名按照字母顺序 3)主要按照博客的域名进行分类,不代表作者当前工作所在机构 4)欢迎补充更多的资源. 1 中国内地 1.1 程明明 清华大学程明明博士,南开大学媒体计算实验…
1. Bayesian Matting, Chuang, CVPR 2001.http://grail.cs.washington.edu/projects/digital-matting/papers/cvpr2001.pdf  论文下载http://grail.cs.washington.edu/projects/digital-matting/image-matting/项目网址 2. GraphCut Segmentation System, Rother, 2004.http://pd…
行人检测具有极其广泛的应用:智能辅助驾驶,智能监控,行人分析以及智能机器人等领域.从2005年以来行人检测进入了一个快速的发展阶段,但是也存在很多问题还有待解决,主要还是在性能和速度方面还不能达到一个权衡.近年,以谷歌为首的自动驾驶技术的研发正如火如荼的进行,这也迫切需要能对行人进行快速有效的检测,以保证自动驾驶期间对行人的安全不会产生威胁. 1   行人检测的现状 大概可以分为两类 1.1    基于背景建模 利用背景建模方法,提取出前景运动的目标,在目标区域内进行特征提取,然后利用分类器进行…
转载来源:http://blog.csdn.net/fengbingchun/article/details/50087005 这篇文章主要是为了对深度学习(DeepLearning)有个初步了解,算是一个科普文吧,文章中去除了复杂的公式和图表,主要内容包括深度学习概念.国内外研究现状.深度学习模型结构.深度学习训练算法.深度学习的优点.深度学习已有的应用.深度学习存在的问题及未来研究方向.深度学习开源软件. 一.            深度学习概念 深度学习(Deep Learning, DL…
      首页 视界智尚 算法技术 每日技术 来打我呀 注册     SLAM系统的研究点介绍 本文主要谈谈SLAM中的各个研究点,为研究生们(应该是博客的多数读者吧)作一个提纲挈领的摘要.然后,我们再就各个小问题,讲讲经典的算法与分类. 1. 前言 在<SLAM for Dummy>中,有一句话说的好:”SLAM并不是一种算法,而是一个概念.(SLAM is more like a concept than a single algorithm.)”所以,你可以和导师.师兄弟(以及师妹,如…
点击公众号"计算机视觉life"关注,置顶星标更快接收消息! 本文阅读时间约5分钟 对于小白来说,初入一个领域时最应该了解的当然是这个领域的研究现状啦.只有知道这个领域大家现在正在干什么,才能知道自己应该做什么.关注领域内的大牛以及领域内比较著名的实验室,紧跟大牛的脚步,才能走在科研的最前沿.今天CV_life君就帮各位整理了一些现阶段国内外SLAM的著名实验室,大牛以及研究成果,还会附带大牛们的代表性论文,开源代码,以及常用的数据集网址,小白们如果喜欢的话记得分享给朋友哦~ 话不多说…
Abstract 最近在两个领域上的图像翻译研究取得了显著的成果.但是在处理多于两个领域的问题上,现存的方法在尺度和鲁棒性上还是有所欠缺,因为需要为每个图像域对单独训练不同的模型.为了解决该问题,我们提出了StarGAN方法,这是一个新型的可扩展的方法,能够仅使用一个单一模型就实现多领域的图像翻译.StarGAN这样的统一模型的结构允许在单个网络上同时训练带有不同领域的多个数据集.这使得StarGAN的翻译图像质量优于现有的模型,并具有将输入图像灵活地翻译到任意目标域的新能力.通过实验,验证了该…
本文作者 任旭倩,公众号:计算机视觉life,编辑成员 欧洲 英国伦敦大学帝国理工学院 Dyson 机器人实验室 http://www.imperial.ac.uk/dyson-robotics-lab 简介: 伦敦帝国理工学院戴森机器人实验室成立于2014年,由Andrew Davison.教授领导.是戴森公司和帝国理工学院领导机器人视觉小组Andrew Davison教授的合作实验室,Andrew Davison是视觉SLAM领域的先驱,戴森提供大量的资金和支持,以建立一个机器人专家团队,他…
孙剑博士分享的是<深度学习变革视觉计算>,分别从视觉智能.计算机摄影学和AI计算三个方面去介绍. 他首先回顾了深度学习发展历史,深度学习发展到今天并不容易,过程中遇到了两个主要障碍: 第一,深度神经网络能否很好地被训练.在深度学习获得成功之前曾被很多人怀疑,相比传统的机器学习理论,深度学习神经网络的参数要比数据大10倍甚至上百倍: 第二,当时的训练过程非常不稳定,论文即使给出了神经网络训练方法,其他研究者也很难把结果复现出来. 这些障碍直到2012年才开始慢慢被解除. 人工智能可以分为感知和认…
上周,阿里巴巴高德地图首席科学家任小枫在#大咖学长云对话#的在线直播活动上就计算机视觉相关技术发展以及在地图出行领域的应用与大家做技术交流,直播间互动火爆,尤其在QA环节,学弟学妹们纷纷就感兴趣的视觉应用.AR导航.定位技术.5G.职业发展等话题提问,任小枫做了精彩回答.我们整理了问答内容,分享给大家. 视频回放地址: https://vku.youku.com/live/ilproom?id=8064786 任小枫博士,现任阿里巴巴高德地图首席科学家,研究员,主要负责视觉技术在地图和出行领域的…
视觉SLAM的主要功能模块分析 一.基本概念 SLAM (simultaneous localization and mapping),也称为CML (Concurrent Mapping and Localization), 即时定位与地图构建,或并发建图与定位. SLAM最早由Smith.Self和Cheeseman于1988年提出. SLAM过程可以描述为:机器人在未知环境中从一个未知位置开始移动,在移动过程中根据位置估计和地图进行自身定位,同时在自身定位的基础上建造增量式地图,实现机器人…
​ 我们生活在一个多模态的世界中.视觉的捕捉与理解,知识的学习与感知,语言的交流与表达,诸多方面的信息促进着我们对于世界的认知.作为多模态领域的一个典型场景,VQA旨在结合视觉的信息来回答所提出的问题.从15年首次被提出[1]至今,其涉及的方法从最开始的联合编码,到双线性融合,注意力机制,组合模型,场景图,再到引入外部知识,进行知识推理,以及使用图网络,多模态预训练语言模型-近年来发展迅速. 传统的VQA仅凭借视觉与语言信息的组合来回答问题,而近年来许多研究者开始探索外部信息对于解决VQA任务的…
文/王吉伟 11月11日,是电商的重要节日.即便今年双11的气氛不如往年浓烈,人们依旧关注双11厂商战报,关注购物车里的商品有没有降价. 当然在RPA领域,大家除了关注双11的商品价格,更关注华为RPA的新动向. 也是在11月11日当天,华为技术服务伙伴大会上,华为WeAutomate RPA迎来了秋季新品发布会.此次发布会主题为:让自动化自然生长,WeAutomate进化政企智能化. 会上,华为发布了覆盖全场景.全生命周期的企业级超自动化架构RPA产品WeAutomate 3.0.作为云计算厂…
这是个简单的算法,是全局二值算法的一种,算法执行速度快. 算法过程简单描述如下: 对于每一个像素,做如下处理 1.计算当前像素水平和垂直方向的梯度. (two gradients are calculated  |I(x + 1, y) - I(x - 1, y)| and |I(x, y + 1) - I(x, y - 1)|);       2.取两个梯度的最大值作为权重.(weight is calculated as maximum of two gradients); 3.更新权重的和…
暂且针对第一篇叶脉提取的paper 插入图像的"图 N": 英 Times New Roman, 中 宋体, 10磅. 文末的引文: 两端对齐. 流程图框格内文字换行时, 忌: 将词语分割开来. 公式尽量别用MathType. 标注: 图片的在下方, 表格的在上方. 陈述部分, 避免表述重复, 例如多次连续使用某词汇, 如引文开头的"对, 对于". 硬件参数处, 将其写入一段语言, 而非逐行列出. "结论"或开头之处, 需要参照相应期刊的范例,…
How to Read a Paper 原文: https://www.yuque.com/lart/papers/yrkv5u 题目:How to Read a Paper 作者:S. Keshav 领域:计算机科学综述 类型:方法论 Researchers spend a great deal of time reading research papers. However, this skill is rarely taught, leading to much wasted effort…
背景 近几年以深度学习技术为核心的人工智能得到广泛的关注,无论是学术界还是工业界,它们都把深度学习作为研究应用的焦点.而深度学习技术突飞猛进的发展离不开海量数据的积累.计算能力的提升和算法模型的改进.本文主要介绍深度学习技术在文本领域的应用,文本领域大致可分为4个维度:词.句子.篇章.系统级应用. 词.分词方面,从最经典的前后向匹配到条件随机场(Conditional Random Field,CRF)序列标注,到现在Bi-LSTM+CRF模型,已经不需要设计特征,从字粒度就能做到最好的序列标注…
图像的膨胀(Dilation)和腐蚀(Erosion)是两种基本的形态学运算,主要用来寻找图像中的极大区域和极小区域.其中膨胀类似于“领域扩张”,将图像中的高亮区域或白色部分进行扩张,其运行结果图比原图的高亮区域更大:腐蚀类似于“领域被蚕食”,将图像中的高亮区域或白色部分进行缩减细化,其运行结果图比原图的高亮区域更小. 1.图像膨胀 膨胀的运算符是“⊕”,其定义如下: 该公式表示用B来对图像A进行膨胀处理,其中B是一个卷积模板或卷积核,其形状可以为正方形或圆形,通过模板B与图像A进行卷积计算,扫…
视频会议软件的视频质量除了与外置设备.编码器相关外,还与视频的后处理技术相关,视频图像通过后处理技术,如图像增强.图像去噪等,图像质量会得到主观上较大的提高.而我们通常的视频后处理技术会采用开源的项目的一些代码来实现,而这些开源的项目中,最值得我们关注的是OpenCV,OpenCV是一个基于C和C++的跨平台图像视觉库,其图像的处理函数都是经过优化,可以用于实时的图像处理,其代码拥有完善的API函数,我们可以轻松地利用其提供的处理函数,来提高我们的视频图像质量,因此OpenCV是视频图像后处理技…
视频会议软件的视频质量除了与外置设备.编码器相关外,还与视频的后处理技术相关,视频图像通过后处理技术,如图像增强.图像去噪等,图像质量会得到主观上较大的提高.而我们通常的视频后处理技术会采用开源的项目的一些代码来实现,而这些开源的项目中,最值得我们关注的是OpenCV,OpenCV是一个基于C和C++的跨平台图像视觉库,其图像的处理函数都是经过优化,可以用于实时的图像处理,其代码拥有完善的API函数,我们可以轻松地利用其提供的处理函数,来提高我们的视频图像质量,因此OpenCV是视频图像后处理技…
版权声明:本文为博主原创文章,未经博主允许不得转载. 本系列文章旨在总结主流视觉SLAM算法的框架,对比各个算法在子模块的差异,最终提炼出融合各个算法优点的架构. PTAM[1]是视觉SLAM领域里程碑式的项目.在此之前,MonoSLAM[2]为代表的基于卡尔曼滤波的算法架构是主流,它用单个线程逐帧更新相机位置姿态和地图.地图更新的计算复杂度很高,为了做到实时处理(30Hz),MonoSLAM每帧图片只能用滤波的方法处理约10~12个最稳定的特征点.PTAM最大的贡献是提出了tracking.m…