视频描述（Video Captioning）调研

Video Analysis 相关领域介绍之Video Captioning(视频to文字描述)
http://blog.csdn.net/wzmsltw/article/details/71192385

基于视频图像的信息：包括简单的用CNN（VGGNet, ResNet等）提取图像(spatial)特征，
用action recognition的模型(如C3D)提取视频动态(spatial+temporal)特征

先验特征：比如视频的类别，这种特征能提供很强的先验信息

基于文本的特征：此处基于文本的特征是指先从视频中提取一些文本的描述，再將这些描述作为特征，来进行video captioning。
这类特征我看到过两类，一类是先对单帧视频进行image captioning,将image captioning的结果作为video captioning的输入特征，
另外一类是做video tagging，将得到的标签作为特征。

基于声音的特征：对声音进行编码，包括BOAW（Bag-of-Audio-Words)和FV(Fisher Vector)等

多模态概念
Multimodal Deep Learning（多模态深度学习）未完待续
http://blog.csdn.net/s2010241013/article/details/51731657

计算机视觉中的词袋模型(Bow,Bag-of-words)
http://www.cnblogs.com/YiXiaoZhou/p/5999357.html
BoW起始可以理解为一种直方图统计，开始是用于自然语言处理和信息检索中的一种简单的文档表示方法。
和histogram 类似，BoW也只是统计频率信息，并没有序列信息。
而和histogram不同的是，histogram一般统计的某个区间的频数，BoW是选择words字典，然后统计字典中每个单词出现的次数。
BoW出现在CV中，如图像分类、图像检索等。其大概过程首先提取图像集特征的集合，
然后通过聚类的方法聚出若干类，将这些类作为dictionary，即相当于words，
最后每个图像统计字典中words出现的频数作为输出向量，就可以用于后续的分类、检索等操作。

BOAW（Bag-of-Audio-Words)受到文本词袋启发音频处理
http://dynadmic-lab.com/tag/bag-of-audio-words/
FV Fisher Vector 图像启发音频处理
http://blog.csdn.net/garfielder007/article/details/50768125
GMM、fisher vector、SIFT与HOG特征资料
http://blog.csdn.net/asd8705/article/details/50285641

ICCV2015的”Sequence to Sequence – Video to Text”

CVPR2017上的“Weakly Supervised Dense Video Captioning”

Video Analysis 相关领域介绍之Video Captioning(视频to文字描述)
https://zhuanlan.zhihu.com/p/26730181

Video Analysis相关领域解读之Action Recognition(行为识别)
https://zhuanlan.zhihu.com/p/26460437

Video Analysis 相关领域解读之Temporal Action Detection(时序行为检测)
https://zhuanlan.zhihu.com/p/26603387

知乎专栏很牛掰
https://zhuanlan.zhihu.com/wzmsltw

视频描述（Video Captioning）调研的更多相关文章

视频描述（Video Captioning）近年重要论文总结
视频描述顾名思义视频描述是计算机对视频生成一段描述,如图所示,这张图片选取了一段视频的两帧,针对它的描述是"A man is doing stunts on his bike", ...
Video Captioning 综述
1.Unsupervised learning of video representations using LSTMs 方法:从先前的帧编码预测未来帧序列相似于Sequence to sequen ...
【转】视频H5 video最佳实践
原文地址:https://github.com/gnipbao/iblog/issues/11 随着 4G 的普遍以及 WiFi 的广泛使用,手机上的网速已经足够稳定和高速,以视频为主的 HTML5 ...
视频处理单元Video Processing Unit
视频处理单元Video Processing Unit VPU处理全局视频处理,它包括时钟门.块复位线和电源域的管理. 缺少什么: •完全重置整个视频处理硬件块 •VPU时钟的缩放和设置 •总线时钟门 ...
HTML5视频标签video
现阶段,我们要在网页中嵌入视频的最可靠最常用的办法是使用Flash,通过使用<object>和<embed>标签,就可以通过浏览器播放swf,flv等格式视频文件,但是前提是浏 ...
HTML 5 简介、视频、Video + DOM、音频、拖放
HTML5 是下一代的 HTML. 什么是 HTML5? HTML5 将成为 HTML.XHTML 以及 HTML DOM 的新标准. HTML 的上一个版本诞生于 1999 年.自从那以后,Web ...
多媒体视频（video）
<video> 是 HTML 5 中的新标签.<video> 标签的作用是在 HTML 页面中嵌入视频元素.<video> 标签定义视频,比如电影片段或其他视频流. ...
[Swift]LeetCode1024. 视频拼接 | Video Stitching
You are given a series of video clips from a sporting event that lasted T seconds. These video clip ...
视频（video）属性
Figure 3视频相关的属性: 属性值描述 muted muted 定义音频的初始状态,目前仅支持muted. crossorigin 空定义当前视频是否是一个跨域的项目. me ...

随机推荐

CSS 再学习，基础篇
语法 h1 {color:red; font-size:14px;} 共享声明 h1,h2,h3,h4,h5,h6 { color: green; } 继承通过 CSS 继承,子元素将继承最高级元素 ...
vue项目打包部署到nginx 服务器上
假如要实现的效果如下 http://ip/vue =>是进入首页访问的路径是 usr/local/nginx/html/vue http://ip/website =>是进 ...
Miller_Rabin(米勒拉宾)素数测试
2018-03-12 17:22:48 米勒-拉宾素性检验是一种素数判定法则,利用随机化算法判断一个数是合数还是可能是素数.卡内基梅隆大学的计算机系教授Gary Lee Miller首先提出了基于广义 ...
windows使用git记录
1.免密码clone远程服务器代码开启ssh 生成私钥公钥命令:查看自己配置的邮箱 git config user.name git config user.email 生成密钥:邮箱填写上面查看出 ...
python高级编程之列表推导式
1. 一个简单的例子在Python中,如果我们想修改列表中所有元素的值,可以使用 for 循环语句来实现. 例如,将一个列表中的每个元素都替换为它的平方: >>> L = [1, ...
cvs的规范以及介绍（转）
原文链接:http://blog.csdn.net/zlzlei/article/details/9236403 1. CSV的全称是叫Comma Separated Value 2. CSV的MIM ...
Alpha阶段第2周/共2周 Scrum立会报告+燃尽图 04
作业要求[https://edu.cnblogs.com/campus/nenu/2018fall/homework/2287] 版本控制:https://git.coding.net/liuyy08 ...
1月中旬值得一读的10本技术新书（机器学习、Java、大数据等）！
1月中旬,阿里云云栖社区联合博文视点为大家带来十本技术书籍(机器学习.Java.大数据等).以下为书籍详情,文末还有福利哦! 书籍名称:Oracle数据库问题解决方案和故障排除手册内容简介 & ...
第10课 struct和union分析
struct的小秘密:空结构体占多大内存呢? 直观的答案有两种: 1.空结构体的大小为0 2.结构体本来就是为了将不同的变量集合在一起使用的,定义空结构体会导致编译错误实例分析: #include ...
Nginx下载和安装与启动
nginx是什么 nginx是一个开源的,支持高性能,高并发的www服务和代理服务软件.它是一个俄罗斯人lgor sysoev开发的,作者将源代码开源出来供全球使用. nginx比它大哥apache性 ...

视频描述（Video Captioning）调研

视频描述（Video Captioning）调研的更多相关文章

随机推荐

热门专题